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Ho 


本 书 分 为 5 部 分 , 共 21 章 。 第 1 部 分 介绍 了 Python 在 金融 学 中 的 应 用 , 其 内 容 涵 盖 了 
Python 用 于 金融 行业 的 原因 、Python 的 基础 架构 和 工具 ， 以 及 Python 在 计量 金融 学 中 
的 一 些 具 体 入 门 实例 ; 第 2 部 分 介绍 了 Python 的 基础 知识 以 及 Python 中 非常 有 名 的 库 
NumPy 和 pandas 工具 集 ， 还 介绍 了 面向 对 象 编程 ; 第 3 部 分 介绍 金融 数据 科学 的 相关 
基本 技术 和 方法 ， 包 括 数据 可 视 化 、 输 入 /输出 操作 和 数学 中 与 金融 相关 的 知识 等 ; 第 
4 部 分 介绍 Python 在 算法 交易 上 的 应 用 ， 重 点 介绍 常见 算法 ， 包 括 机 器 学 习 、 深 度 神 
经 网 络 等 人 工 智 能 相关 算法 ; 第 5 部 分 讲解 基于 蒙特 卡 洛 模拟 开发 期 权 及 衍生 品 定价 
的 应 用 ， 其 内 容 涵盖 了 估 值 框架 的 介绍 、 金 融 模型 的 模拟 、 衍 生 品 的 估 值 、 投 资 组 合 
的 估 值 等 知识 。 


本 书 适合 对 使 用 Python 进行 大 数据 分 析 和 处 理 感 兴趣 的 金融 行业 开发 人 员 阅 读 。 






































O’Reilly Media, Inc. 介 绍 


O'Reily 以 “分 享 创新 知识 、 改 变 世界 ”为 己任 。40 多 年 来 我 们 一 直 向 企业 、 个 人 提供 成 功 
所 必需 之 技能 及 思想 ， 激 励 他 们 创新 并 做 得 更 好 。 





O"Reilly 业 务 的 核心 是 独特 的 专家 及 创新 者 网 络 ， 众 多 专家 及 创新 者 通过 我 们 分 享 知 识 。 我 
们 的 在 线 学 习 (Online Learning) 平台 提供 独家 的 直播 培训 、 图 书 及 视频 ， 使 客户 更 容易 获 
取 业 务 成 功 所 需 的 专业 知识 。 几 十 年 来 O'Reilly 图 书 一 直 被 视 为 学 习 开 创 未 来 之 技术 的 权威 
资料 。 我 们 每 年 举办 的 诸多 会 议 是 活跃 的 技术 聚会 场所 ， 来 自 各 领域 的 专业 人 士 在 此 建立 联 
系 ， 讨 论 最 佳 实践 并 发 现 可 能 影响 技术 行业 未 来 的 新 趋势 。 









































我 们 的 客户 渴望 做 出 推动 世界 前 进 的 创新 之 举 ， 我 们 希望 能 助 他 们 一 璧 之 力 。 


业界 评论 
“O'Reilly Radar## #A o FH, ” 


——Wired 


“O'Reilly 和 凭借 一 系列 非凡 想法 (真希 望 当 初 我 也 想到 了 ) 建立 了 数 百 万 美元 的 业务 。” 


Business 2.0 
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‘O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 

一 一 CRN 
“一 本 O’Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 

一 一 Irish Times 
“Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 了 眼 于 最 长 远 、 最 广阔 的 领域 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 含 路 口 ， 那 就 走 小 路 。 ”回顾 过 
去 ，Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽 管 大 路 也 
不 错 。” 


一 一 Linux Journal 
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EK, Python 无 疑 是 金融 业 的 重要 策略 性 技术 平台 之 一 。 当 我 于 2013 年 开始 编写 本 书 
第 1 版 时 ,仍然 在 许多 演讲 中 不 懈 地 介绍 Python 在 金融 方面 相 比 其 他 语言 及 平台 的 竞 
争 优势 。 到 2018 年 年 底 ， 这 已 经 不 再 是 个 问题 : 全 世界 的 金融 机 构 现在 都 尽 最 大 努力 
利用 Python 及 其 强大 的 数据 分 析 、 可 视 化 和 机 器 学 习 程序 库 生态 系统 。 在 金融 领域 之 
外 ，Python 还 常常 成 为 编程 人 门 课程 〈 例 如 计算 机 科学 课程 项 目 ) 选择 的 语言 。 


除了 容易 理解 的 语法 和 多 重 范 型 方法 之 外 ， 形 成 这 一 局 面 的 主要 原因 之 一 是 ，Python 
已 经 成 为 人 工 智能 CAL). BLAS (ML) 和 深度 学 习 (DL) 领域 的 “头等 公民 ”。 这 
些 领 域 的 许多 流行 的 软件 包 和 程序 库 都 直接 用 Python (如 ML 所 用 的 scikit-learn ) 编写 ， 

或 者 用 Python 包装 需 (例如 DL 所 用 的 TensorFlow )。 


金融 本 身 正在 进入 一 个 新 时 代 ， 这 一 发 展 有 两 个 主要 的 推动 力 。 首 先是 基本 上 所 有 金 
融 数 据 都 可 以 编程 访问 般 来 说 ， 这 种 访问 是 实时 的 ， 也 是 催生 “数据 驱动 金融 ” 
的 原因 。 几 十 年 前 ， 大 部 分 交易 或 者 投资 决策 是 由 交易 员 和 投资 组 合 管理 人 推动 的 ， 
这 些 人 阅读 报纸 ， 或 者 通过 私下 交谈 进行 学 习 。 此 后 出 现 了 一 些 终端 ， 可 通过 计算 机 
和 电子 通信 ， 将 金融 数据 实时 传递 到 交易 员 和 投资 组 合 管理 人 的 桌面 上 。 今 天， 即使 
是 一 分 钟 产生 的 海量 金融 数据 ， 个 人 (或 者 团队 ) 都 无 法 应 付 。 只 有 人 处理 速 度 和 计算 
能 力 与 日 俱 增 的 机 器 ， 才 能 应 对 金融 数据 的 容量 和 速度 。 这 意味 着 ， 全 球 大 部 分 股票 
交易 量 是 由 算法 和 计算 机 驱动 的 ， 而 不 是 交易 员 。 
第 二 个 主要 推动 力 是 在 金融 中 越 来 越 重 要 的 人 工 智 能 。 越 来 越 多 的 金融 机 构 试图 利用 
ML 和 DL 算法 改善 运营 ,以 及 它们 的 交易 及 投资 表现 。2018 年 初 , 第 一 本 关于 “金融 
机 器 学 习 ” 的 专著 出 版 ， 强 调 了 这 种 趋势 。 毫 无 疑问 ， 还 会 有 更 多 的 图 书 涌现 。 这 导 
致 了 可 以 称 为 “人 工 智能 优先 金融 学 ”的 现象 , 用 可 参数 化 的 ML 及 DL 算法 代替 传统 
的 金融 理论 。 传 统 的 金融 理论 可 能 非常 优雅 ， 但 在 数据 驱动 、 人 工 智 能 优先 的 金融 学 
实践 中 不 再 有 太 大 的 用 处 了 。 

面 对 这 一 金融 时 代 的 挑战 ，Python 是 合适 的 编程 语言 和 生态 系统 。 本 书 涵 盖 有 监督 学 习 
和 无 监督 学 习 的 基本 ML 算法 ( 以 及 深度 神经 网 络 )， 但 焦点 是 Python 的 数据 处 理 和 分 
析 能 力 。 想 要 全 面 叙 述 AI 当前 和 未 来 在 金融 中 的 重要 性 ， 需 要 一 整 本 书 的 篇 幅 。 不 过 ， 
KÈRI AIL, ML 和 DL 需要 大 量 的 数据 ， 因 此 无 论 如 何 应 该 首先 掌握 数据 驱动 金融 学 。 
本 书 第 2 版 更 多 的 是 一 次 升级 ， 而 非 更 新 。 例 如 ， 这 一 版 增加 了 关于 算法 交易 的 一 整 
个 部 分 (第 4 部 分 )。 这 一 主题 最 近 在 金融 业 变 得 相当 重要 ， 在 散户 中 也 很 受 欢 迎 。 本 


































































































































































































































































































版 还 增加 了 一 个 入 门 部 分 (第 2 部 分 ), 介绍 Python 基本 编程 和 数据 分 析 ,， 这 些 知识 将 
为 本 书 的 后 续 几 个 部 分 奠定 基础 。 另 一 方面 ,第 1 版 的 某 些 章节 完全 删除 了 。 例 如 ， 
关于 Web 技术 和 对 应 库 ( 如 Flask ) 的 部 分 删除 ， 因 为 现在 已 经 有 专门 介绍 这 些 知识 的 
图 书 。 
在 第 2 版 中 ， 我 力图 涵盖 更 多 金融 相关 主题 ， 聚 焦 于 对 金融 数据 科学 、 算 法 交易 和 计算 金 
融 学 特别 有 用 的 Python 技术 。 和 第 1 版 中 一 样 , 我 采用 的 是 实用 方法 , 实现 和 图 示 先 于 理 
论 细节 ， 通 常 将 重点 放 在 整体 上 ， 而 不 是 某 些 类 、 方 法 或 者 星 涩 难 懂 的 函数 参数 化 选项 。 
描述 完 第 2 版 的 基本 方法 之 后 ， 我 还 必须 强调 ， 这 本 书 既 不 是 介绍 Python 编程 ， 也 不 
是 介绍 一 般 金 融 知 识 的 图 书 。 在 这 两 个 方面 ， 都 有 大 量 出 色 的 知识 来 源 。 本 书 定位 于 
这 两 个 激动 人 心 的 领域 相互 交 又 的 方面 ， 并 假定 读者 有 一 定 的 编程 (不 一 定 是 Python ) 
和 人 金融 背景 。 这 些 读者 将 学 习 把 Python 及 其 生态 系统 应 用 于 金融 领域 的 方法 。 

Jupyter Notebook 和 本 书 配 套 代码 可 以 通过 Quants 平台 访问 和 执行 ,读者 可 以 在 Python 
Quants 官网 免费 注册 。 


我 的 公司 (Python Quants ) 和 本 人 还 提供 了 许多 帮助 读者 掌握 Python 金融 数据 科学 、 
人 工 智能 、 算 法 交易 和 计算 金融 学 的 资源 。 你 可 以 从 访问 如 下 站 点 开始 : 


。 ”我 们 公司 的 网 站 Python Quants; 





























































































































我 的 个 人 网 站 The AI QUANT; 
。 我们 的 Python 书籍 网 站 ( 在 Python Quants 官网 中 ); 
。 ”我 们 的 在 线 培训 网 站 (在 Python Quants 官网 中 ); 
。 ”我 们 的 认证 计划 网 站 (在 Python Quants 官网 中 )。 
在 我 们 前 几 年 所 提供 的 服务 中 , RER A SEM AE “Python 算法 交易 认证 计划 ” Certificate 
Program in Python for Algorithmic Trading )。 它 提供 了 超过 150 小 时 的 实时 和 录制 教程 ， 
超过 1200 页 的 文档 ，5000 行 以 上 的 Python 代码 以 及 50 多 个 Jupyter Notebook。 这 一 
课程 每 年 开设 多 次 ， 每 一 次 我 们 都 进行 更 新 和 改进 。 这 些 在 线 课程 是 同类 中 的 首创 。 
通过 与 萨 尔 州 应 用 技术 大 学 的 合作 ， 成 功 完成 该 课程 者 将 获得 正式 的 大 学 文凭 。 
除 此 之 外 ， 我 最 近 还 启动 了 新 的 “The AI Machine” 项 目 和 公司 ， 以 实现 自动 化 算法 交易 策 
略 部 署 的 标准 化 。 我 们 和 希望 通过 这 一 项 目 ， 以 系统 化 、 可 伸缩 的 方式 实施 多 年 来 在 这 个 领域 
传授 的 方法 ， 以 便利 用 算法 交易 领域 的 许多 机 遇 。 近 来 ， 此 类 项 目 即 便 对 于 像 我 们 这 样 规模 
较 小 的 团队 来 阅 也 是 可 能 的 ， 这 应 该 归功 于 Python 以 及 数据 驱动 和 人 工 智 能 优先 金融 学 。 
我 以 如 下 的 话 作为 第 1 版 前 言 的 结 

对 于 Python 确立 金融 行业 中 重要 技术 地 位 这 一 事实 ， 我 确实 感到 很 兴奋 。 我 

敢 肯 定 ， 它 在 未 来 将 会 起 到 更 重要 的 作用 ， 例 如 在 衍生 品 和 风险 分 析 或 者 高 









































隆 能 计算 领域 中 。 我 希望 本 书 能 够 帮助 专业 人 士 、 研 究 人 员 和 学 生 在 面 对 这 

一 迷人 领域 中 的 挑战 时 ， 最 大 限度 地 利用 Python. 
当 我 在 2014 年 写 下 上 述 文字 时 ， 还 无 法 预测 Python 在 金融 学 中 将 会 变 得 多 么 重要 。2018 
年 ， 我 因为 自己 的 期 许 和 希望 已 经 被 大 大 超越 而 感到 快乐 。 也 许 ， 本 书 的 第 1 版 对 此 
起 到 了 小 小 的 作用 。 无 论 如 何 ， 读 者 都 应 该 感谢 不 懈 努 力 的 开源 开发 者 们 ， 如 果 没 有 
人 他们， 就 不 可 能 书写 Python 的 成 功 故事 。 


本 书 约定 

















元 素 表 示 提 示 或 者 建议 。 





素 表 示 一 般 注解 。 














代码 示例 的 使 用 
补充 材料 ( 特别 是 Jupyter Notebook 和 Python 脚本 /模块 ) 可 以 从 Python Quants Fak. 


本 书 的 目的 是 帮助 读者 完成 工作 。 一 般 而 言 ， 你 可 以 在 你 的 程序 和 文档 中 使 用 本 书 中 
的 代码 ， 而 且 也 没有 必要 取得 我 们 的 许可 。 但 是 ， 如 果 你 要 复制 的 是 核心 代码 ， 则 需 
要 和 我 们 打 个 招呼 。 例 如 ， 你 可 以 在 无 须 获取 我 们 许可 的 情况 下 ， 在 程序 中 使 用 本 书 
中 的 多 个 代码 块 。 但 是 ， 销 售 或 分 发 OReilly 图 书 中 的 代码 则 需要 取得 我 们 的 许可 。 
通过 引用 本 书 中 的 示例 代码 来 回答 问题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 是 ， 如 果 
你 的 产品 文档 中 融合 了 本 书 中 的 大 量 示例 代码 ， 则 需要 取得 我 们 的 许可 。 

在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 英文 原 书 的 属性 信息 是 最 好 不 过 (但 不 是 必 
需 的 ), 属性 信息 通常 包括 书 名 、 作者、 出 版 社 和 ISBN。 例如 :“Python for Finance, 2nd Edition, 
by Yves Hilpisch (O’Reilly). Copyright 2019 Yves Hilpisch, 978-1-492-02433-0.” 


在 使 用 书 中 的 代码 时 ， 如 果 不 确定 是 否 属于 正常 使 用 ,或 是 否 超出 了 我 们 的 许可 ， 请 
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这 一 部 分 介绍 Python 的 金融 应 用 ， 包 括 两 章 。 











© 第 1 章 简短 地 讨论 Python 的 总 体 情况 , 证 明 Python 确实 适用 于 处 理 金融 行业 和 财 


务 (数据 ) 分 析 中 遇 到 的 技术 难题 。 
。 第 2 章 介 绍 Python 基础 架构 和 工具 , 目的 是 简洁 地 概述 Python 环境 管理 的 
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识 ， 帮 助 你 开始 Python 交互 式 金融 分 析 及 金融 应 用 开发 。 


女人 Dr 
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银行 本 质 上 是 技术 公司 。 
— FAR + 班 齐 格 


1.1 Python 编程 语言 


Python 是 一 种 高 级 的 多 用 途 编程 语言 ， 广 泛 用 于 各 种 非 技术 和 技术 领域 。 在 Python 网 
站 上 ， 你 可 以 找到 如 下 行动 纲领 : 
Python 是 一 种 具备 动态 语义 、 面 向 对 象 的 解释 型 高 级 编程 语言 。 它 的 高 级 
内 建 数据 结构 与 动态 类 型 及 动态 绑 定 相 结合 ， 使 其 在 快速 应 用 开发 上 极 具 
吸引 力 ， 也 适合 于 作为 脚本 或 者 “黏合 剂 ” 语 言 ， 将 现 有 组 件 连接 起 来 。 
Python 简单 、 易 学 的 语法 强调 可 读 性 ,因此 可 以 降低 程序 维护 成 本 。 Python 
支持 模块 和 软件 包 ， 鼓 励 模块 化 和 代码 重用 。Python 解释 程序 和 大 量 标准 
库 可 以 以 源 代码 或 者 二 进 制 的 形式 免费 取得 ， 它 们 用 于 所 有 主要 平台 ， 并 
且 可 以 随意 分 发 。 
上 述 纲 领 很 好 地 描述 了 Python 成 为 当今 主要 编程 语言 之 一 的 原因 。 当 前 , 在 学 校 、Web 
公司 、 大 型 企业 和 金融 机 构 以 及 任何 科学 领域 ， 都 有 初学 者 和 熟练 的 专业 开发 人 员 在 
使 用 Python。 


Python 有 如 下 特征 。 
FERRY 


Python 和 大 部 分 可 用 的 支持 库 及 工具 都 是 开源 的 ， 通 常 都 有 相当 灵活 和 开放 的 许 
可 证 。 
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CPython 参考 实现 是 该 语言 的 一 个 解释 程序 ， 在 运行 时 它 将 Python 代码 翻译 为 可 
执行 字 节 代码 。 
ZF CH 
Python 3¢f# AIAN 2a Ee SEA, PGT AAA kh, eR ek Rest 
编程 。 
EHE 
Python 可 以 用 于 快速 、 交 互 式 代码 开发 ， 也 可 以 用 于 构建 大 型 应 用 程序 它 可 以 
用 于 低级 系统 操作 ， 也 可 以 承担 高 级 分 析 任务 。 
SPE 
Python 可 用 于 大 部 分 重要 的 操作 系统 ， 如 Windows, Linux 和 Mac OS; 它 用 于 构 
建 桌 面 应 用 和 Web 应 用 ; 可 以 在 庞大 的 群集 和 强大 的 服务 器 上 使 用 ， 也 可 以 在 树 
和 芍 派 这 样 的 小 设备 上 运行 。 
BEF BA 
Python 中 的 类 型 通常 在 运行 时 推 知 ， 而 不 像 大 部 分 编译 语言 那样 静态 声明 。 
Se 1H fe fo 
和 大 部 分 其 他 编程 语言 不 同 ，Python 使 用 缩 进 标记 代码 块 ， 缩 进 标记 代替 了 圆 括 
号 、 方 括号 或 者 分 号 。 













































































BIKE 
Python 具有 自动 垃圾 收集 机 制 ， 避 免 程序 员 来 管理 内 存 。 
关于 Python 语法 及 其 意义 ，Python 增强 提案 20 一 一 即 所 谓 的 “Python 之 禅 ”一 一 提供 





了 重要 的 指导 方针 。 每 个 交互 shell 都 可 以 用 命令 import this 访问 它 : 


In [1]: import this 
The Zen of Python, by Tim Peters 


Beautiful is better than ugly. 





Explicit is better than implicit. 
Simple is better than complex. 
Complex is better than complicated. 
Flat is better than nested. 

Sparse is better than dense. 
Readability counts. 
Special cases aren't special enough to break the rules. 
Although practicality beats purity. 











4 第 1 章 为 什么 将 Python 用 于 金融 





Errors should never pass silently. 
Unless explicitly silenced. 


In the face of ambiguity, refuse the temptation to guess. 


There should be one-- and preferably only one --obvious way to do it. 


Although that way may not be obvious at first unless you're Dutch. 


Now is better than never. 
Although never is often better than *right* now. 
If the implementation is hard to explain, it's a bad idea. 


If the implementation is easy to explain, it may be a good idea. 


Namespaces are one honking great idea -- let's do more of those! 


1.1.1 Python 简 史 


Python 对 于 某 些 人 来 说 可 能 还 是 个 新 事物 , 但 是 它 已 经 出 现 了 很 长 时 间 。 实际 上 , 早 在 20 
世纪 80 年 代 ， 荷兰 人 吉 多 : 范 . 罗 苏 姆 (Guido van Rossum ) 就 开始 了 开发 工作 。 他 现在 
仍然 活跃 在 Python 开发 中 ， 被 Python 社区 授予 “仁慈 独裁 者 ”的 称号 。2018 年 7 月 ， 罗 




















苏 姆 在 数 十 年 积极 推动 Python 核心 开发 工作 之 后 让 位 。 下 面 是 Python 开发 的 里 程 碑 : 
e ”1991 年 发 行 的 Python 0.9.0 (第 一 个 发 行 版 本 ); 
e ”1994 年 发 行 的 Python 1.0; 

e ”2000 年 发 行 的 Python 2.0; 

e ”2008 年 发 行 的 Python 2.6; 

e ”2008 年 发 行 的 Python 3.0; 

e ”2009 年 发 行 的 Python 3.1; 

。 ”2010 年 发 行 的 Python 2.7; 

e ”2011 年 发 行 的 Python 3.2; 

e ”2012 年 发 行 的 Python 3.3; 

e ”2014 年 发 行 的 Python 3.4; 

e ”2015 年 发 行 的 Python 3.5; 

e ”2016 年 发 行 的 Python 3.6; 

e ”2018 年 6 月 发 行 的 Python 3.7. 





值得 注意 的 是 ， 在 开发 之 中 有 两 个 可 用 的 主要 版 本 ， 更 重要 的 是 ， 它 们 从 2008 年 起 并 
行使 用 ， 这 有 时 候 令 Python 初学 者 感到 困惑 。 到 本 书 编 著 之 时 ， 这 种 情况 可 能 还 将 持 
续 一 段 时 间 ， 因 为 仍 有 大 量 可 用 和 生产 代码 是 用 Python 2.6/2.7 编写 的 。 本 书 第 1 版 基 





















































于 2.7.x 版 本 ,但 第 2 版 将 全 部 使 用 Python 3.7。 








1.1 Python 编程 语言 


1.1.2 Python 生态 系统 

Python 作为 一 个 生态 系统 ， 而 不 仅 是 一 门 编程 语言 ， 其 主要 特征 是 有 大 量 可 用 的 库 和 
工具 。 这 些 库 和 工具 通常 必须 在 需要 (例如 ， 绘 图 库 ) 时 导入 或 者 作为 单独 的 系统 进 
FE CAA, Python 交互 开发 环境 ) 启动 。 导 入 意味 着 使 某 个 库 可 用 于 当前 命名 空间 和 
当前 Python 解释 程序 进程 。 

Python 本 身 自 带 了 一 组 大 型 的 程序 库 和 模块 ， 它 们 叫 作 Python 标准 库 ， 该 标准 库 在 不 
同方 面 增强 了 基本 解释 程序 。 例 如 ， 基 本 数学 计算 可 以 在 不 做 任何 导入 的 情况 下 完成 ， 
而 更 专业 的 数学 函数 必须 通过 math 模块 导入 : 


In [2]: 100 * 2.5 + 50 
Out [2]: 300.0 






























































In [3]: log(1)@ 





NameError Traceback (most recent call last) 
<ipython-input-—3-74f£22a2fd43b> in <module> 
----> 1 log(1)® 





NameError: name 'log' is not defined 
In [4]: import math @ 


In [5]: math.log(1)@ 
Out[5]: 0.0 


@ 没有 进一步 导 和 人， 就 会 发 生 错误 。 

@ 导入 math 模块 后 ， 可 以 执行 计算 。 

在 任何 安装 中 math 都 是 可 用 的 标准 Python 库 , 但 是 还 有 许多 库 是 可 选 安装 的 , 它们 可 
以 通过 和 标准 模块 相同 的 方式 使 用 。 这 些 库 来 自 不 同 的 ( Web ) 来 源 。 然 而 ， 通 常 建议 使 
用 某 种 Python FET GEMAS, 确保 所 有 库 相 互 一 致 ( 这 个 主题 的 更 多 内 容 参 见 第 2 章 )。 
目前 为 止 介绍 的 代码 示例 都 使 用 Python 交互 式 环境 : IPython 和 Jupyter。 它 们 可 能 是 
本 书写 作 时 最 广泛 使 用 的 Python 交互 式 开 发 环境 之 一 。 虽 然 Python 刚 开始 出 现时 只 
是 一 个 增强 的 shell, 但 是 现在 它 已 经 有 了 集成 开发 环境 CIDE ) 的 许多 典型 特性 ( 例如 ， 
支持 性 能 分 析 和 调试 )。IPython 中 缺乏 Vim ( 也 可 与 [Python 集成 ) 等 高 级 文本 /代码 编 
辑 右 所 提供 的 功能 ， 因此, 将 Python 与 某 种 文本 /代码 编辑 器 组 合 使 用 、 组 成 Python 开发 
过 程 基 本 工具 集 的 情况 很 常见 。 

IPyhon 从 许多 方面 增强 了 标准 交互 式 shell。 它 提供 了 改进 的 命令 行 历史 功能 ， 并 且 能 
够 进行 简单 的 对 象 检查 。 例 如 ， 在 函数 名 称 后 添加 一 个 ”就 可 以 打印 函数 的 帮助 文 
本 (添加 ? ? 将 提供 更 多 信息 )。 
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IPython 最 初 有 两 个 流行 版 本 : 一 个 shell 版 本 和 一 个 基于 浏览 器 的 版 本 (Notebook )。 
Notebook 变 体 非 常 实用 和 流行 ， 从 而 演变 为 一 个 独立 的 语言 无 关 的 项 目 Jpyter。 考 虑 
到 它 的 背景 ，Jupyter Notebook 继承 了 大 部 分 IPython 的 有 益 特 性 也 就 不 足 为 奇 了 ， 它 
还 提供 了 更 多 的 新 功能 ， 例 如 可 视 化 。 


使 用 IPython 的 更 多 细节 请 参见 VanderPlas (2016 版 , 第 1 章 )。 


1.1.3 Python 用 户 谱系 

Python 不 仅 对 专业 软件 开发 人 员 有 很 大 的 吸引 力 ， 临 时 开发 人 员 、 领 域 专家 和 科研 开 
发 人 员 也 使 用 它 。 

专业 软件 开发 人 员 寻 求 高 效 构建 大 型 应 用 程序 所 需 的 一 切 工具 。Python 支持 几乎 所 有 
编程 范 型 ， 有 强大 的 开发 工具 。 从 理论 上 说 ，Python 可 以 应 对 任何 工作 。 这 些 类 型 的 
用 户 通常 构建 自己 的 框架 和 类 ， 也 依靠 基础 的 Python 和 科学 栈 进行 工作 ， 并 且 尽 最 大 
的 努力 利用 生态 系统 。 

科研 开发 人 员 和 领域 专家 通常 频繁 使 用 某 些 库 和 框架 ， 构 建 他 们 长 年 改进 和 优化 的 应 
用 程序 ， 并 且 根 据 特定 的 需求 调整 生态 系统 。 这 组 用 户 通常 参与 较 长 的 交互 式 会 话 ， 
快速 建立 新 代码 原型 ， 并 探索 和 可 视 化 其 研究 及 领域 数据 集 。 
临时 开发 人 员 喜 欢 在 确定 Python 具有 优势 的 特定 问题 上 使 用 Python。 例如 , 访问 Matplotlib 
的 展示 页 面 ， 复 制 Matplotlib 提供 的 某 一 段 可 视 化 代码 ， 根 据 特殊 需求 调整 这 些 代码 等 。 
Python 用 户 还 有 另 一 个 重要 的 群体 : 编程 人 门 者 ， 也 就 是 刚刚 开始 编程 的 人 。 现 在 ， 
Python 在 大 学 、 专 业 院 校 甚至 中 小 学 校 中 已 经 成 为 向 学 生 介 绍 编程 的 流行 语言 。 这 种 
现象 的 主要 原因 之 一 是 其 基本 语法 即使 对 于 非 开 发 人 员 也 很 容易 学 习 和 理解 。 此 外 ， 
Python 支持 几乎 所 有 编程 风格 。 


1.1.4 ”科学 栈 
某 些 库 的 集合 被 统称 为 科学 栈 (Scientific Stack )， 其 中 包括 以 下 程序 库 。 
NumPy 
NumPy 提供 多 维 数组 对 象 ， 以 存储 同 构 或 者 异 构 数 据 ; 它 还 提供 操作 这 一 数组 对 
象 的 优化 函数 /方法 。 
SciPy 
SciPy 是 子 库 和 函数 的 集合 ， 它 可 以 实现 科学 或 者 金融 中 常常 用 到 的 重要 标准 功 
能 ; 例如 ， 你 可 以 找到 3 次 样 条 插值 和 数值 积分 的 函数 。 
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1 例如 ，Python 已 经 成 为 纽约 城市 大 学 博 鲁 克 学 院 金融 工程 研究 生 课 程 中 使 用 的 主要 语言 之 一 。 一 一 原 注 
2 ”维基 百科 上 可 以 找到 许多 开发 人 员 和 非 开 发 人 员 学 习 Python 入 门 知识 的 宝贵 资源 。 FRE 
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Matplotlib 
Matplotlib 是 非常 流行 的 Python 绘图 和 可 视 化 库 ， 提 供 2D 和 3D 可 视 化 功能 。 
pandas 


pandas 在 NumPy 基础 上 构建 ,可 提供 更 丰富 的 时 间 序 列 和 表格 数据 的 管理 与 分 析 ; 
它 与 Matplotlib 在 绘图 上 、 与 PyTables 在 数据 存储 和 读 取 上 紧密 集成 。 


scikit-learn 


scikit-learn 是 流行 的 机 器 学 习 (ML ) 程序 库 ， 为 许多 不 同 的 ML 算法 (如 估 值 、 
分 类 或 者 聚 类 ) 提供 统一 的 应 用 编程 接口 (API) o 


PyTables 


PyTables 是 流行 的 HDF5 数据 存储 库 封装 器 ; 这 个 库 可 实现 基于 层次 数据 库 / 文 件 
格式 的 优化 磁盘 VO 操作 。 
根据 特定 的 领域 或 问题 ， 科 学 栈 可 以 通过 更 多 的 库 进行 扩展 ， 这 些 库 多 半 在 一 个 或 者 
多 个 上 述 的 基本 库 基础 上 构建 。 但 是 ， 最 小 公分 母 (或 称 基本 组 成 部 分 ) 通常 是 NumPy 
ndarray 类 ( 见 第 4 章 ) 和 pandas DataFrame 类 ( 见 第 5 FE )。 


仅 从 编程 语言 来 讲 ， 有 许多 其 他 语言 在 语法 和 简洁 性 上 可 与 Python Ao AA, Ruby 也 
是 相当 流行 的 语言 ， 可 与 Python 相提并论 。 在 该 语言 的 网 站 上 ， 你 可 以 找到 如 下 的 描述 : 
一 种 动态 的 开放 源码 编程 语言 ， 重 视 简洁 性 和 效率 。 它 具备 简洁 的 语法 ， 阅 

读 自然 、 易 于 编写 。 
大 部 分 Python 使 用 者 可 能 也 赞成 用 相同 的 陈述 描述 Python 本 身 。 但 是 , 对 于 许多 Python 
用 户 而 言 ， 它 与 Ruby 等 同样 具有 吸引 力 的 语言 之 间 的 区 别 在 于 科学 栈 。 这 使 Python 
不 仅 是 优秀 、 简 洁 的 语言 , 还 可 以 代替 Matlab 或 者 R 等 领域 专用 语言 和 工具 集 。 此 外 ， 
它 默 认 提 供 各 种 人 员 ( 如 熟练 的 Web 开发 人 员 或 者 系统 管理 员 ) 所 需要 的 任何 功能 。 
Python 还 擅长 与 R 等 领域 特定 语言 交互 ， 因 此 ， 你 所 要 做 的 决策 通常 不 是 “用 Python 
还 是 其 他 语言 ? ”， 而 是 以 哪 一 种 语言 为 主 。 


1.2 金融 中 的 科技 


WE, 我们 对 Python 已 经 有 了 大 致 的 认识 ， 接 下 来 简短 地 介绍 一 下 科技 在 金融 中 的 作 
用 就 很 有 意义 了 。 这 将 使 我 们 更 好 地 评判 Python 在 金融 行业 中 已 经 承担 的 任务 ， 更 重 
要 的 是 ， 还 可 以 评判 未 来 承担 的 任务 。 

在 某 种 意义 上 ， 科技 对 于 金融 机 构 (例如 与 生物 技术 公司 相 比 ) 或 者 财务 部 门 (与 其 
他 企业 职能 部 门 相 比 ， 如 后 勤 ) 没有 什么 特别 的 作用 。 然 而 ， 近 年 来 ， 在 创新 和 监管 
的 刺激 下 ， 银 行 和 其 他 金融 机 构 〈 如 对 冲 基金 ) 越 来 越 多 地 发 展 成 为 技术 公司 而 不 仅 
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仅 是 金融 中 介 机 构 。 科 技 成 为 了 全 球 几乎 所 有 人 金融 机 构 的 重要 资产 ， 具 备 导致 竞争 优 
势 和 劣势 的 潜力 。 某 些 背景 信息 可 以 解释 这 种 发 展 的 原因 。 

1.2.1 科技 投入 

银行 和 金融 机 构 共同 组 成 了 每 年 在 科技 上 投入 最 多 的 行业 。 因 此 ， 下 面 的 陈述 不 仅 说 
明科 技 对 金融 行业 的 重要 性 ， 也 说 明了 金融 行业 对 科技 的 重要 性 : 


美国 马萨诸塞 州 弟 雷 明 汉 ，2018 年 6 月 14 日 一 一 根据 国际 数据 公司 (IDC) 
的 一 系列 “金融 服务 IT 开销 指南 ” 称 ， 全 球 金融 服务 公司 在 信息 科技 (IT ) 
上 的 开销 将 从 2018 年 的 4400 亿美 元 增长 到 2021 年 的 近 5000 亿美 元 。 


— IDC 














特别 是 ， 银 行 和 其 他 金融 机 构 正 在 参与 业务 及 运营 模式 数字 化 的 竞争 : 
2017 年 ， 北 美 地 区 银行 在 新 科技 上 的 开销 高 达 199 亿美 元 。 
银行 开发 当前 系统 并 致力 于 新 的 技术 解决 方案 ， 以 增强 其 在 全 球 市 场 上 的 竞 
争 力 ， 吸 引 对 新 的 网 络 和 移动 科技 感 兴趣 的 客户 。 对 于 为 银行 业 提 供 新 思路 
和 软件 解决 方案 的 全 球 金 融 科 技 公 司 来 说 ， 这 是 一 个 巨大 的 机 遇 。 


— Statista 


当今 的 大 型 跨国 银行 通常 雇佣 数 千 名 开发 人 员 ， 以 维护 现 有 系统 并 构建 新 系统 。 具 有 
大 量 科 技 需求 的 大 型 投资 银行 每 年 的 科技 预算 往往 达到 数 十 亿美 元 。 


1.2.2 ”作为 业务 引擎 的 科技 
科技 发 展 对 金融 行业 的 创新 和 效率 增进 也 有 贡献 。 通 常 ， 这 一 领域 的 项 目 统称 为 “ 数 
字 化 项 目 ”: 


金融 服务 业 在 过 去 数 年 中 已 经 历 了 科技 先导 的 彻底 变革 。 许 多 高 管 期 望 IT 部 
门 改 进 效 率 ， 促 进 游戏 规则 的 创新 同时 降低 成 本 ， 继 续 支 持 遗 留 系统 。 
与 此 同时 ， 金 融 科技 初创 企业 正在 逐步 蚕食 原 有 市 场 ， 提 出 对 客户 友好 的 解 
决 方案 ， 这 些 方案 是 从 头 开始 设计 的 ， 不 受 遗 留 系统 的 阻碍 。 

一 一 普 华 永 道 第 19 次 年 度 全 球 CEO 调查 报告 (2016 年 ) 


效率 提高 的 副作用 之 一 就 是 ， 金 融 机 构 往 往 必须 在 更 为 复杂 的 产品 或 者 交易 中 寻求 竞 
争 优势 。 这 当然 会 使 风险 增 大 , 并 使 风险 管理 、 监控 和 监管 越 来 越 困 难 。2007 年 和 2008 
年 的 金融 危机 说 明了 这 些 发 展 带 来 的 潜在 危险 。 同 样 ,，“ 算 法 和 计算 机 失控 ”也 给 金融 
市 场 带 来 潜在 的 风险 。2010 年 5 月 的 所 谓 “ 闪 电 有 崩盘” 事件 戏剧 性 地 展现 了 上 述 风 险 ， 
自动 化 卖 出 导致 某 些 股票 和 股票 指数 在 当日 大 幅度 下 跌 。 本 书 第 4 部 分 将 介绍 与 金融 
工具 算法 交易 相关 的 内 容 。 
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1.2.3 ”作为 进入 门槛 的 科技 和 人 才 

一 方面 ， 在 其 他 条 件 不 变 的 情况 下 ， 随 着 时 间 的 推移 ， 科 技 的 进步 会 降低 成 本 。 另 一 方面 ， 

金融 机 构 持 续 在 科技 上 投入 巨 资 ， 以 增 大 市 场 份额 、 保 持 自身 地 位 。 在 今天 的 金融 市 场 上 取 

得 一 席 之 地 往往 需要 在 科技 和 熟练 人 员 上 大 规模 投资 。 考 虑 衍生 品 分 析 领 域 的 一 个 例子 : 
在 整个 软件 生命 期 中 ， 采 用 内 部 OTC (衍生 品 ) 定价 策略 的 公司 仅 在 一 个 完 
整 的 衍生 品 库 的 构建 、 维 护 和 改进 上 就 需要 投入 2500 万 ~ 3600 万 美元 。 


— Ding 2010 


构建 一 个 完善 的 衍生 品 分 析 库 不 仅 成 本 高 昂 和 费时 , 而 且 需 要 有 足够 的 专业 人 士 来 进行 这 项 工 
作 。 这 些 专业 人 士 必须 有 正确 的 工具 和 技术 ， 才 能 完成 相应 的 任务 。 随 着 Python 生态 系统 的 
发 展 ， 与 10 年 前 相 比 ， 这 些 工 作 变 得 更 加 高 效 ， 相 关 的 成 本 也 有 了 显著 的 下 降 。 第 5 部 分 介 
绍 衍生 品 分 析 ， 仅 用 Python 及 标准 库 就 构建 了 一 个 规模 昌 小 却 强大 且 灵 活 的 衍生 品 定价 库 。 
下 面 ， 我 们 引用 另 一 段 美 国 长 期 资本 管理 公司 (LTCM ) 的 陈述 ， 以 进一步 支持 关于 科技 
和 人 才 的 观点 。LTCM 曾 是 最 受 尊敬 的 计量 对 冲 基 金 ， 但 是 在 20 世纪 90 年 代 末 破产 : 

Meriwether 在 最 新 型 计算 机 系统 上 花费 了 2000 万 美元 ， 并 雇用 一 个 由 一 流 金 

融 工 程 师 成 的 团队 在 LTCM 操纵 该 系统 ， 他 们 在 康涅狄格 州 的 格林 尼 治 开始 

工作 .这 是 行业 级 别 的 风险 管理 





























— Patterson 2010 


Meriwether 花费 数 百 万 美元 才能 得 到 的 计算 能 力 , 在 今天 只 需要 几 千 美元 就 能 实现 。 第 
2 章 介绍 了 在 云 中 建立 交互 式 金融 分 析 、 应 用 开发 和 Python 部 署 的 方法 。 这 种 专业 基 
础 设施 每 月 的 起 始 费 用 仅 为 几 美元 。 另 一 方面 ， 大 型 金融 机 构 的 交易 、 定 价 和 风险 管 
理 已 经 变 得 非常 复杂 ， 导 致 现在 必须 部 团 具 有 数 万 个 计算 核心 的 IT 基础 架构 。 


1.2.4 不 断 提高 的 速度 、 频 率 和 数据 量 
金融 行业 有 一 个 方面 非常 受 科技 进步 的 影响 : 金融 交易 决策 和 执行 的 速度 及 频率 。 
Lewis 最 近 的 著作 (2014 ) 生动 而 详细 地 描述 了 所 谓 的 “闪电 交易 ”一 一 也 就 是 以 可 能 
的 最 高 速度 进行 的 交易 。 
一 方面 ， 可 用 数据 的 时 间 标 度 越 来 越 小 ， 使 实时 反应 成 为 必需 的 能 力 。 男 一 方面 ， 交 
易 的 速度 和 频率 的 提高 使 数据 量 进一步 增 大 。 这 两 方面 相互 补充 ， 推 动 了 金融 交易 平 
均 时 间 标 度 的 系统 性 下 降 。 这 种 趋势 在 10 年 前 就 已 经 开始 : 
复兴 资本 公司 的 “大 奖章 ”基金 在 2008 年 获得 了 80% 的 惊人 增长 率 ， 它 以 闪 
电 般 速度 的 计算 机 抓 住 了 市 场 极 端 活跃 的 机 会 。Jim Simons 是 当年 世界 盈利 
最 高 的 对 冲 基 金管 理 人 ， 收 入 达到 25 亿美 元 。 















































— Patterson 2010 
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单 只 股票 30 年 的 每 日 股价 数据 大 致 包含 7500 个 报价 。 这 类 数据 是 大 部 分 现代 金融 理 
论 的 基础 。 例 如 ， 现 代 投 资 组 合理 论 (MPT )、 资 本 定价 模型 (CAPM ) 和 风险 价值 (VaR ) 
等 理论 都 以 每 日 股价 数据 为 基础 。 
相 比 之 下 , 苹果 公司 (AAPL ) 典型 交易 日 报价 次 数 大 约 为 15000 一 一 两 倍 于 30 年 日 终 
报价 的 数量 (参见 1.4 节 的 例子 )。 这 带 来 了 许多 挑战 。 
KU 
只 考虑 和 处 理 股 票 或 者 其 他 金融 工具 的 日 终 报价 是 不 够 的 。 在 每 周 的 7 天 、 每 天 
的 24 小 时 内 ， 某 些 金融 工具 上 发 生 的 事情 “ 太 多 了 ”。 
DMR 
决策 往往 必须 在 几 毫 秒 甚 至 更 短 的 时 间 内 做 出 ， 有 必要 构建 独自 的 分 析 能 力 工 具 ， 
并 实时 分 析 大 量 数据 。 
FB Go Kk Bh 
虽然 传统 金融 理论 和 概念 远 称 不 上 完美 ,但 是 它们 经 受 了 时 间 的 考验 ( 有些 时 候 
受到 排斥 ) ; 对 于 毫秒 级 计量 能 力 很 重要 的 今天 ， 仍 然 缺 乏 在 很 长 时 间 内 证 明 是 
稳定 的 一 致 性 概念 和 理论 。 
总 体 上 ， 上 述 挑战 都 只 能 由 现代 科技 应 对 。 令 人 有 些 惊 讶 的 是 ， 缺 乏 一 致 性 理论 的 问 
题 也 常常 通过 技术 方法 处 理 。 在 这 种 情况 下 , 高 速算 法 利用 的 是 市 场 微观 结构 要 素 ( 例 
如 ， 订 单 流 、 买 卖 价 差 )， 而 不 依赖 于 某 种 金融 推理 方法 。 


1.2.5 ”实时 分 析 的 兴起 
金融 行业 中 有 一 个 学 科 的 重要 性 正在 强劲 增长 : 金融 和 数据 分 析 。 这 种 现象 与 行业 中 
速度 、 频 率 和 数据 率 飞 速 增长 有 紧密 的 关系 。 实 际 上 ， 实 时 分 析 可 以 视 为 行业 对 这 种 
趋势 的 反应 。 
粗略 地 讲 ，“ 人 金融 和 数据 分 析 ” 指 的 是 将 应 用 软件 、 科 技 ， 与 〈 可 能 是 先进 的 ) 算法 、 数 据 
收集 、 数 据 处 理 及 分 析 方 法 相 结合 ， 以 获得 深刻 的 洞察 力 、 做 出 决策 或 者 满足 监管 需求 的 学 
Bho 这 类 分 析 的 例子 包括 银行 零售 部 门 中 茶 个 金融 产品 定价 结构 的 变化 对 销售 情况 影响 的 佑 
算 。 另 一 个 例子 是 投资 银行 衍生 品 复杂 投资 组 合 信用 价值 调整 (CVA ) 的 大 规模 隔夜 计算 。 
金融 机 构 在 这 种 环境 下 主要 面 对 两 种 挑战 。 
AHE 
在 “大 数据 ”这 一 术语 出 现 之 前 ， 银 行 和 其 他 金融 机 构 就 必须 处 理 海量 数据 。 然 
而 ， 单 一 分 析 任 务 所 处 理 的 数据 量 随 着 时 间 的 推移 而 有 了 很 大 的 增长 ， 从 而 要 求 
计算 能 力 有 所 提高 并 有 更 大 的 内 存 与 存储 能 力 。 
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RAPA 
过 去 ， 决 策 者 只 能 依赖 结构 化 的 定期 计划 、 决 策 和 风险 管理 过 程 ， 而 今天 决策 者 
面 对 的 是 实时 完成 这 些 任务 的 需求 。 过 去 在 后 台 通 过 隔夜 批量 运行 可 以 完成 的 任 
务 ， 现 在 已 经 转向 前 台 实 时 执行 。 
同样 ， 人 们 可 以 观察 到 科技 和 金融 /商业 发 展 之 间 的 相互 作用 。 一 方面 ， 市 场 上 出 现 了 
通过 现代 科技 的 应 用 不 断 改进 分 析 方 法 的 速度 和 效率 的 需求 。 另 一 方面 ， 科 技 的 进步 
使 几 年 甚至 几 个 月 之 前 认为 不 可 能 (或 者 由 于 预算 约束 而 不 可 行 ) 的 新 分 析 方 法 成 为 
可 能 。 
分 析 领 域 的 一 个 重要 趋势 是 利用 中 央 处 理 单元 (CPU ) 的 并 行 结构 和 通用 计算 图 形 处 
理 单元 ( GPGPU ) 的 大 规模 并 行 结 构 。 现 在 的 GPGPU 往往 有 1000 多 个 计算 核心 ， 有 
时 候 有 必要 彻底 反思 并 行 性 对 不 同 算法 的 意义 。 用 户 通常 必须 学 习 新 的 范 型 和 技术 才 
能 利用 这 种 硬件 ， 这 仍 是 障碍 。 
























































1.3 ”用 于 金融 的 Python 


1.2 节 介 绍 了 科技 在 金融 中 发 挥 作用 的 一 些 领域 : 
。 ”金融 行业 中 的 科技 成 本 ; 

。 ”作为 新 业务 和 创新 业务 引擎 的 科技 ; 

。 ”作为 金融 行业 进入 门槛 的 科技 ; 
。 不断 提升 的 速度 、 频 率 和 数据 量 ; 
。 ”实时 分 析 的 兴 

本 节 ， 我 们 分 析 Python 如 何 帮 助 你 应 对 这 些 方面 的 多 种 挑战 。 不 过 首先 让 我 从 更 为 基 
础 的 方面 一 一 语言 和 语法 介绍 用 于 金融 的 Python. 

1.3.1 金融 和 Python 语法 

在 金融 环境 中 迈 出 使 用 Python 第 一 步 的 大 部 分 人 都 可 能 要 攻克 某 个 算法 问题 。 这 和 想 
要 解 出 微分 方程 、 求 取 积 分 或 者 可 视 化 某 些 数据 的 科学 工作 者 类 似 。 一 般 来 说 ， 在 这 
一 阶段 ， 对 正规 开发 过 程 、 测 试 、 文 档 或 者 部 署 没 有 太 多 的 要 求 。 然 而 ， 这 一 阶段 似 
乎 是 人 们 特别 容易 爱 上 Python 的 时 候 , 主要 原因 是 Python 的 语法 总 体 上 和 用 于 描述 科 
学 问题 或 者 金融 算法 的 数学 语法 相当 接近 。 

我 们 可 以 通过 一 个 简单 的 金融 算法 一 一 通过 蒙特 卡 洛 模拟 方法 估计 欧式 看 涨 期 权 的 价 
值 来 说 明 这 一 现象 。 我 们 将 考虑 Black-Scholes-Merton (BSM ) 模型 ， 在 这 种 模型 中 期 
权 的 潜在 风险 遵循 几何 布朗 运动 。 
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假定 我 们 使 用 以 下 数值 化 参数 进行 估 值 : 
。 ”初始 股票 指数 水 平 So=100; 

。 ”欧式 看 涨 期 权 的 行 权 价格 K=105; 

。 ”到 期 时 间 T=1 年 ; 

。 固定 无 风险 短期 利率 /=5%; 

。 固定 波动 率 r=20%。 


在 BSM 模型 中 ， 到 期 指数 水 平 是 一 个 随机 变量 ， 由 公式 1-1 给 出 ， 其 中 z 是 一 个 标准 
正 态 分 布 随机 变量 。 


公式 1-1 Black-Scholes-Merton (1973 ) 到 期 指数 水 平 
1 
S, = so 7 -1° )r +a) 


下 面 是 蒙特 卡 洛 估 值 过 程 的 算法 描述 。 

(1) 从 标准 正 态 分 布 中 取得 I 个 ( 伪 ) BELEK 2), TE (1, 2, …, Do 
(2 ) 为 给 定 的 z(i) 和 公式 1-1 计算 所 有 到 期 指数 水 平 SD 

(3) 计算 到 期 时 期 权 的 所 有 内 在 价值 hy(i)=max(S7(i)-K,0)。 

(4 ) 通过 公式 1-2 中 给 出 的 蒙特 卡 罗 估 算 函 数 估计 期 权 现 值 。 

公式 1-2 欧式 期 权 的 蒙特 卡 洛 估算 函数 





























arl ; 
Care” TÈMO 
I 


现在 ， 我 们 需要 将 这 个 问题 和 算法 翻译 为 Python 代码 。 下 面 的 代码 将 实现 一 些 必 
要 的 步骤 。 


In [6]: import math 





import numpy as np © 


In [7]: SO = 100. @ 


K = 105. @ 
T=1.090 
r= 0.05 @ 


sigma = 0.2 @ 


In [8]: I = 100000 @ 


In [9]: np.random.seed(1000) © 
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In [10]: z = np.random.standard_normal(I) @ 
In [11]: ST = SO * np.exp((r - sigma xx 2 / 2) * T + sigma * math.sqrt(T) * z) © 
In [12]: hT = np.maximum(ST - K, 0) © 


In [13]: CO = math.exp(-r * T) * np.mean(hT) @ 








In [14]: print('Value of the European call option: {:5.3f}.'.format(C0)) © 





Value of the European call option: 8.019. 


@ NumPy 在 这 里 作为 主 程序 包 使 用 。 
@ 定义 模型 并 模拟 参数 值 。 

© 随机 数 生成 器 种 子 值 固定 。 

© 提取 标准 正 态 分 布 随 机 数 。 

@ 模拟 期 末 价值 。 

@ 计算 期 权 到 期 收益 。 

O 计算 蒙特 卡 洛 估算 函数 。 

@ 打印 输出 估算 结 
































以 下 3 个 方面 值得 注意 。 
请 法 

Python 语法 与 数学 语法 相当 接近 ， 例 如 参数 赋值 的 方面 。 
dif 

每 条 数学 或 者 算法 语句 一 般 都 可 以 翻译 为 单行 Python 代码 。 
向 量化 





NumPy 的 强项 之 一 是 紧凑 的 向 量化 语法 , 例如 , 允许 在 单一 代码 行 中 进行 10 万 次 
计算 。 
这 段 代 码 可 以 用 于 IPython 或 Jupyter Notebook 等 交互 式 环境 。 但 是 ， 需 要 频繁 重用 的 
代码 一 般 组 织 为 所 谓 的 模块 (或 者 脚本 )， 也 就 是 带 有 .py 后 缀 的 Python (文本 ) 文件 。 
本 例 的 模块 如 例 1-1 所 示 ， 可 以 将 其 保存 为 名 为 bsm_msc_euro.py 的 文件 。 
例 1-1 欧式 看 涨 期 权 的 蒙特 卡 洛 估 值 
# 


# Monte Carlo valuation of European call option 
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# in Black-Scholes-—Merton model 
# bsm_mcs_euro.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 

import math 


import numpy as np 


# Parameter Values 

SO = 100. # initial index level 
K = 105. # strike price 

T= 1.0 # time-to-maturity 

0.05 # riskless short rate 


K 
ll 


sigma = 0.2 # volatility 
I = 100000 # number of simulations 
# Valuation Algorithm 


z = np.random.standard_normal(I) # pseudo-random numbers 
# index values at maturity 





ST = SO * np.exp((r - 0.5 * sigma ** 2) * T + sigma * math.sqrt(T) * z) 
hT = np.maximum(ST - K, 0) # payoff at maturity 
CO = math.exp(-r * T) * np.mean(hT) # Monte Carlo estimator 


# Result Output 
print ('Value of the European call option %5.3f.' % C0) 








这 一 小 节 中 的 简单 算法 示例 说 明 ,， Python 的 基本 语法 很 适合 为 经 典 的 科学 语言 二 
奏 一 一 英语 和 数学 来 提供 补充 。 在 科学 语言 组 合 中 添加 Python 能 使 其 更 加 全 面 。 我 们 
现在 拥有 : 





用 于 写作 和 谈论 科学 、 金 融 等 问题 的 英语 ; 
用 于 简洁 、 精 确 地 描述 抽象 特征 、 算 法 、 复 数 等 并 为 其 建 模 的 数学 ; 
从 技术 上 建立 抽象 特征 、 算 法 、 复 数 等 的 模型 并 加 以 实现 的 Python。 
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数学 和 Python 语法 

几乎 没有 任何 编程 语言 像 Python 这 样 接近 数学 语法 。 因 此 ， 数 值 算 
法 很 容易 从 数学 表示 翻译 为 Python 实现 。 通 过 Python， 我 们 可 以 在 
这 些 领 域 中 高 效 地 进行 原型 化 、 开 发 和 代码 维护 。 




















在 某 些 领域 中 ， 使 用 伪 代 码 是 常见 的 做 法 ,这 引入 了 第 4 个 语言 家 族 成 员 。 举 个 例子 ， 
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伪 代 码 的 任务 是 以 更 技术 性 的 方式 表示 金融 算法 ， 不 但 与 数学 表示 接近 ， 而 且 还 接近 
于 技术 实现 。 除 了 算法 本 身 ， 伪 代码 还 考虑 了 计算 机 的 工作 原理 。 


采用 这 种 方法 一 般 是 因为 ， 使 用 大 部 分 编程 语言 时 ， 技 术 实 现 和 正式 的 数学 表现 形式 
的 距离 相当 “遥远 ”。 大 部 分 编程 语言 都 必须 包含 许多 只 在 技术 上 需要 的 元 素 ， 但 在 数 
学 和 代码 中 很 难看 到 等 价 的 元 素 。 


时 下 ,Python 常常 以 伪 代 码 的 方式 被 使 用 , 因为 它 的 语法 和 数学 很 类 似 , 而 且 技 术 “ 开 
销 ” 可 以 控制 到 最 低 。 这 一 点 是 通过 该 语言 所 体现 的 一 些 高 层 概念 实现 的 ， 这 些 概念 
不 仅 有 其 优势 ， 也 带 来 了 风险 和 其 他 代价 。 不 过 可 以 肯定 ， 我 们 可 在 需求 出 现 的 时 候 
使 用 Python， 从 一 开始 就 遵循 其 他 语言 可 能 需要 的 严格 实现 和 编码 方法 。 从 这 个 意义 
上 说 ，Python 可 以 在 两 个 世界 : 高 层次 的 抽象 和 严格 的 实现 中 提供 最 佳 的 平衡 。 
1.3.2 Python 的 效率 和 生产 率 
从 较 高 的 层次 看 ， 使 用 Python 的 好 处 可 以 从 以 下 3 个 维度 衡量 。 
RR 
Python 如 何 更 快 地 获得 结果 、 节 约 成 本 、 节 约 时 间 ? 
APR 
Python 如 何在 相同 的 资源 ( 人员、 资产 等 ) 下 完成 更 多 的 工作 ? 
KE 
Python 能 够 让 我 们 做 哪些 替代 技术 所 不 能 做 到 的 事情 ? 
对 这 些 特性 的 讨论 当然 不 可 能 很 全 面 。 然 而 ， 可 以 将 某 些 特性 作为 出 发 点 。 


1. 在 更 短 的 时 间 里 得 到 成 果 


Python 效率 较为 明显 的 领域 之 一 是 交互 式 的 数据 分 析 。 这 些 领域 从 IPython、Jupyter 
Notebook 等 有 力 工具 和 pandas 之 类 的 程序 中 库 获 益 良 多 。 


假设 你 是 一 位 正在 撰写 硕士 论文 的 金融 专业 学 生 ， 对 标 普 500 指数 感 兴趣 ， 想 要 分 
析 1 年 的 历史 指数 水 平 ， 以 了 解 指数 在 这 段 时 间 内 的 波动 性 ， 你 希望 找到 证 据 证 明 这 
种 变动 性 与 茶 些 典型 的 模型 假设 相反 ， 它 是 随时 间 变 动 而 非 固定 。 而 且 ， 应 该 对 结果 
进行 可 视 化 ， 你 要 进行 的 主要 的 工作 如 下 : 


。 ”从 网 络 上 下 载 指数 水 平 数据 ; 

。 计算 年 化 对 数 收益 率 的 滚动 标准 差 〈 波动 率 ); 

。 ”绘制 指数 水 平 数 据 和 波动 性 结果 图 表 。 

这 些 任务 很 复杂 ， 在 不 久之 前 还 被 认为 是 专业 金融 分 析 师 才能 完成 的 。 而 在 今天 ， 即 
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使 是 金融 专业 的 学 生 也 可 以 轻松 地 对 付 这 类 问题 。 我 们 来 看 看 具体 的 做 法 一 一 此 时 还 


7 


不 有 


0 
© 
© 
© 
@ 
© 
@ 


© 





日 操 心 语 法 的 细节 《后续 的 章节 将 对 所 有 细节 进行 解释 ) 


In [16]: import numpy as np © 


import pa 
from pyla 


In [17]: plt.style 


ndas as pd © 
b import plt, mpl @ 


.use('seaborn') @ 


mpl.rcParams['font.family'] = 'serif' @ 
smatplotlib inline 


In [18]: data = pd.read_csv('../../source/tr_eikon_eod_data.csv', 


index_col=0, parse_dates=True) ® 


data = pd.DataFrame(data['.SPX']) © 
data.dropna(inplace=True) 9 

data.info() © 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 2138 entries, 2010-01-04 to 2018-06-29 
Data columns (total 1 columns): 

. SPX 2138 non-null float64 

dtypes: float64 (1) 

memory usage: 33.4 KB 





In [19]: data['rets'] = np.log(data / data.shift(1)) © 


data['vola'] = data['rets'].rolling(252).std() * np.sqrt (252) @ 
In [20]: data[['.SPX', 'vola']].plot (subplots=True, figsize= 
(10, 6)); © 

导入 NumPy 和 pandas。 





导入 matplotlib 并 配置 Jupyter 绘图 样式 和 方法 。 

pdread_csv0 可 以 读 取 远 程 或 者 本 地 存储 的 逗号 分 隔 值 (CSV ) 形式 数据 集 。 
选取 一 个 数据 子 集 ， 删 除 NaN ( 非 数 值 ) 值 。 

显示 关于 数据 集 的 一 些 元 信息 。 

以 向 量化 的 方式 (在 Python 级 别 上 “无 循环 ”) 计算 对 数 收益 率 。 

得 出 滚动 年 化 波动 率 。 

最 后 绘制 两 个 时 间 序 列 。 




















图 1-1 展示 了 这 一 简短 交互 会 话 所 得 到 的 图 形 化 结果 。 用 几 行 代码 就 足以 完成 金融 分 析 
中 的 典型 复杂 任务 : 数据 收集 、 复 杂 和 重复 的 数学 计算 以 及 结果 的 可 视 化 ， 令 人 觉得 























不 可 思议 。 从 这 个 例子 中 可 以 看 到 ，pandas 使 整个 时 间 系 列 的 处 理 变 得 就 像 浮 点 数 上 
的 数学 运算 那样 容易 。 
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1-1 RE 500 收盘 价 和 年 化 波动 率 


将 这 个 例子 转换 到 专业 的 金融 环境 中 ， 可 以 看 出 金融 分 析 师 在 应 用 提供 高 层次 抽象 的 
合适 的 Python 工具 和 库 的 时 候 ， 能 够 将 焦点 放 在 自身 的 领域 上 上， 而 不 用 关心 复杂 的 技 
术 细 节 。 分 析 师 可 以 快速 反应 ， 几 乎 实时 地 提供 宝贵 的 洞 见 ， 确 保 自己 比 竞争 对 手 先 
行 一 步 。 这 种 效率 的 提高 很 容易 转换 为 可 度量 的 财务 效果 。 

2. 确保 高 性 能 

一 般 来 说 ，Python 的 语法 相当 简洁 ， 编 码 效率 相对 高 是 为 人 们 所 接受 的 说 法 。 但 是 ， 
由 于 Python 本 质 上 是 解释 型 语言 ， 因 此 存在 一 种 偏见 ， 认 为 Python 对 于 金融 学 中 的 计 
算 密集 任务 来 说 速度 过 于 缓慢 。 确 实 ， 在 某 些 特定 的 实现 方法 下 ，Python 可 能 确实 很 
慢 ， 但 是 ， 它 并 不 一 定 都 那么 缓慢 它 可 以 在 几乎 所 有 应 用 领域 中 表现 出 高 性 能 。 
理论 上 ， 人 们 至 少 可 以 找到 3 种 提高 性 能 的 策略 。 

Ut A Fo xe 


一 般 来 说 ，Python 可 以 用 许多 不 同 的 方式 得 出 相同 的 结果 ， 但 是 这 些 方式 的 性 能 特 
性 有 相当 大 的 区 别 ; 只 要 选择 合适 的 方式 ( 如 特定 的 实现 方法 、 明 智 地 使 用 数据 结 
构 、 通 过 向 量化 避免 循环 或 者 使 用 pandas 等 特定 库 ) ， 就 可 以 显著 地 改善 效果 。 

mE 
现在 ， 有 许多 高 性 能 库 可 以 提供 重要 函数 的 编译 版 本 ,或 者 将 Python 代码 静态 或 
者 动态 地 ( 在 运行 时 或 者 调用 时 ) 编译 为 机 器 代码 ， 这 种 代码 的 速度 比 纯 Python 
代码 要 快 好 几 个 数量 级 。 比 较 流行 的 高 性 能 库 有 Cython 和 Numba 等 。 
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HAM 
许多 计算 任务 ( 特别 是 金融 学 中 的 计算 任务 ) 可 以 从 并 行 执行 中 得 到 很 大 好 处 ; 
这 对 Python 来 说 不 足 为 奇 ， 可 以 轻松 地 实现 。 


使 用 Python 实现 高 性 能 计算 

Python 本 身 不 是 一 种 高 性 能 计算 技术 。 但 是 ,Python 已 经 发 展 成 为 一 
种 访问 当前 高 性 能 技术 的 理想 平台 。 在 这 个 意义 上 ，Python 已 经 成 为 
高 性 能 计算 的 “黏合 剂 ” 语 言 。 





本 节 坚 持 使 用 简洁 实用 的 例子 介绍 上 述 3 种 策略 ( 后 续 的 章节 将 详细 介绍 这 些 策略 )。 
金融 分 析 中 相当 常见 的 任务 之 一 是 在 大 量 数字 上 计算 复杂 的 数学 表达 式 。 在 这 方面 ， 
Python 本 身 就 提供 了 所 有 必需 的 功能 : 
In [21]: import math 

loops = 2500000 

a = range(1, loops) 

def £(x): 

return 3 * math.log(x) + math.cos(x) xx 2 























Stimeit r = [f(x) for x in a] 


1.59 s + 41.2 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


Python 解释 程序 在 本 例 中 需要 1.68 的 时 间 来 完成 250 万 次 函数 f 的 计算 。 使 用 NumPy 
可 以 完成 相同 的 任务 ， 它 提供 了 优化 〈 也 就 是 预先 编译 ) 的 函数 来 处 理 这 种 基于 数组 
的 运算 : 


In [22]: import numpy as np 








a = np.arange(1l, loops) 
Stimeit r = 3 * np.log(a) + np.cos(a) ** 2 
87.9 ms + 1.73 ms per loop (mean + std. dev. of 7 runs, 10 loops each) 


NumPy 可 以 将 执行 时 间 大 幅 缩减 到 约 88ms。 甚 至 有 一 个 库 是 专门 用 于 此 类 任务 的 , 这 
个 库 叫 作 numexpr， 得 名 于 “数值 表达 式 ”( Numerical Expressions )。 它 可 以 编译 表达 
式 来 改善 NumPy 通用 功能 的 性 能 。 例 如 ,在 执行 期 间 避 免 ndarray 对 象 在 内 存 中 复制 : 


In [23]: import numexpr as ne 





ne.set_num_threads (1) 

f = '3 * log(a) + cos(a) ** 2' 

Stimeit r = ne.evaluate(f) 

50.6 ms + 4.2 ms per loop (mean + std. dev. of 7 runs, 10 loops each) 


使 用 这 种 更 特殊 的 方法 可 以 进一步 将 执行 时 间 降 低 至 约 SOms. mH., numexpr 还 内 建 
并 行 执行 单独 运算 的 功能 。 这 使 我 们 能 够 使 用 一 个 CPU 的 多 个 线程 : 


In [24]: ne.set_num_threads (4) 











Stimeit r = ne.evaluate(f) 
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22.8 ms + 1.76 ms per loop (mean + std. dev. of 7 runs, 10 loops each) 


本 例 利 用 了 4 个 线程 , 执行 时 间 进 一 步 下 降 到 23ms, 总 体 的 性 能 提升 了 90 倍 。 特 别 要 
注意 的 是 ， 这 类 改善 不 需要 修改 基本 问题 /算法 ,也 不 用 了 解 任何 有 关 编 译 和 并 行 化 问 
题 的 知识 ， 即 使 是 非 专业 人 士 也 可 以 从 较 高 的 层次 上 去 利用 这 种 功能 。 当 然 ， 前 提 是 
你 必须 知道 存在 这 些 功 能 。 


这 个 例子 说 明 ，Python 提供 了 一 些 选项 可 以 更 好 地 利用 现 有 资源 ， 也 就 是 提高 生产 率 。 
利用 并 行 化 方法 ， 可 以 在 同样 的 时 间 里 完成 3 倍 于 串 行 化 方法 的 计算 ， 这 只 需要 告诉 
Python 使 用 多 个 CPU 线程 〈 而 非 仅 使 用 一 个 线程 ) 即 可 。 
1.3.3 ”从 原型 化 到 生产 
从 执行 速度 的 角度 看 , 交互 式 分 析 的 效率 和 性 能 当然 是 Python 值得 考虑 的 两 个 好 处 。 在 金 
融 学 中 使 用 Python 的 另 一 个 好 处 初 看 似乎 比较 不 起 眼 , 但 是 细 看 之 下 就 会 发 现 它 本 身 是 一 
个 重要 的 战略 因素 。 这 就 是 以 端 到 端 (从 原型 化 到 生产 ) 的 方式 使 用 Python 的 可 能 性 。 
当今 全 球 金 融 机 构 的 金融 开发 过 程 往往 是 一 个 分 离 的 两 步 式 过 程 。 一 方面 ， 量 化 分 析 
币 〈quant， 也 称 宽 客 ) 负责 模型 开发 和 技术 原型 化 。 他 们 喜欢 使 用 MatLab 和 有 R 等 工 
具 和 环境 实现 快速 、 交 互 式 的 应 用 程序 开发 。 在 开发 的 这 一 阶段 ， 性 能 、 稳 定性 、 异 
常 管理 、 数 据 访问 分 离 和 分 析 等 问题 都 不 重要 。 人 们 的 主要 目标 是 概念 或 者 原型 的 验 
证 ， 原 型 用 于 展现 某 种 算法 或 者 整个 应 用 程序 必需 的 主要 功能 。 
一 旦 原型 完成 ，IT 部 门 中 的 开发 人 员 接 管 工 作 ， 他 们 负责 将 现 有 原型 代码 翻译 为 可 靠 、 易 
于 维护 和 高 性 能 的 生产 代码 。 这 一 阶段 中 ， 通 常 在 用 于 满足 生产 性 能 的 C++ 或 者 Java 语言 
中 有 一 个 范 型 转换 的 过 程 。 而 且 ， 正 规 的 开发 过 程 还 要 用 到 专业 工具 、 版 本 控制 等 技术 。 
这 种 两 步 式 方法 会 产生 一 些 意外 的 结果 。 
5 FIR F 

原型 代码 不 能 重用 ; 算法 必须 实现 两 次 ; 多 余 的 工作 消耗 时 间 和 资源 ; 转译 时 产 

生 的 风险 。 
ÍR IER 

不 同 部 门 展现 不 同 的 技能 集合 ， 使 用 不 同 的 语言 实现 “相同 的 工作 ”。 
X BRA 

代码 必须 以 不 同 的 语言 存在 和 维护 ， 并 使 用 不 同 的 实现 风格 (例如 ， 从 架构 的 观 

点 上 看 ) fe} 
男 一 方面 , 使 用 Python 可 以 实现 合理 化 的 端 到 端 过 程 一 一 从 最 初 的 交互 式 原型 化 步 又 
到 高 可 靠 性 、 易 于 维护 的 生产 代码 。 不 同 部 门 之 间 的 沟通 变 得 更 加 简单 ， 工 作 人 员 的 
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培训 也 更 为 合理 ， 只 有 一 种 主要 语言 覆盖 金融 应 用 构建 的 所 有 领域 ， 还 避免 了 在 开发 
过 程 不 同步 又 中 使 用 不 同 技术 造成 的 低 效 和 宛 余 性 。 总 而 言 之 ，Python 可 以 为 金融 应 
用 开发 和 算法 实现 提供 一 致 性 的 技术 框架 。 


1.4 数据 驱动 和 人 工 智 能 优先 的 金融 学 


在 2018 年 8 月 更 新 第 2 版 的 这 一 节 时 ，2014 年 本 书 第 1 版 中 有 关 科 技 与 金融 学 之 间 关 
系 的 言论 似乎 仍然 适用 且 重 要 。 但 是 ， 本 节 将 讲述 金融 业 的 两 个 重要 趋势 ， 它 们 将 从 
根本 上 重 塑 这 个 行业 。 这 两 个 趋势 主要 是 在 过 去 的 几 年 内 形成 的 。 


1.4.1 数据 驱动 金融 学 

最 重要 的 一 些 金融 理论 (如 MPT 和 CAPM ) 可 以 追溯 到 20 世纪 50 年 代 和 60 年 代 。 
然而 ， 它 们 仍然 是 经 济 、 财 务 、 金 融 工 程 和 商业 管理 领域 教育 的 基石 。 这 可 能 令 人 惊 
讶 ， 因 为 大 部 分 此 类 理论 的 实证 支持 相当 贫乏 ， 而 证 据 往 往 完全 与 理论 相反 。 另 一 方 
面 ， 它 们 的 流行 性 也 是 可 以 理解 的 ， 因 为 它们 接近 于 人 们 对 金融 市 场 表 现 的 期 望 ， 而 
且 ， 它 们 是 建立 在 一 些 吸 引 人 【 通常 过 于 简单 ) 的 假设 之 上 的 简洁 数学 理论 的 。 

科学 方法 (如 物理 学 ) 始 于 数据 ( 如 来 自 试验 或 者 观察 的 数据 )， 然 后 得 出 假设 和 理论 ， 
并 用 数据 加 以 测试 。 如 果 测 试 结果 是 肯定 的 ， 那 可 以 对 这 些 假设 和 理论 进行 提炼 ， 并 以 合 
适 的 方法 记录 下 来 ,例如 以 研究 型 论文 的 方式 发 表 。 如 果 测 试 结果 是 否定 的 ,假设 和 理论 
将 被 抛弃 ， 并 开始 寻找 复合 数据 的 新 理论 。 由 于 物理 定律 在 一 段 时 间 里 是 稳定 的 ， 所 以 一 
旦 发 现 并 对 齐 进行 了 完备 的 测试 ， 那 么 在 最 住 状况 下 ， 通 常 可 以 认为 是 永远 成 立 的 。 
(计量 ) 金融 学 的 历史 大 部 分 与 科学 方法 相悖 。 在 许多 情况 下 ， 理 论 和 模型 是 在 简化 的 
数学 假设 下 “从 头 ” 开 发 的 ， 目 标 是 发 现金 融 学 核心 问题 的 简练 回答 。 人 金融 学 的 流行 
假设 是 ， 金 融 工 具 的 回报 呈 标 准 正 态 分 布 ， 各 种 利率 之 间 呈 线性 关系 。 由 于 这 些 现象 
在 金融 市 场 上 很 难看 到 ， 这 些 简单 理论 的 实证 往往 很 缺乏 ， 也 就 不 值得 惊讶 了 。 许 多 
金融 理论 和 模型 都 是 首先 提出 公式 、 证 明 并 发 表 ， 然 后 才 进 行 实证 测试 的 。 在 某 种 程 
度 上 ， 这 当然 是 因为 20 世纪 50 年 代 或 者 70 年 代 甚 至 更 晚 的 时 候 ， 还 不 存在 合适 形式 
的 金融 数据 ， 而 今天 就 连 攻读 金融 学 士 学 位 的 学 生 都 能 得 到 这 些 数据 。 

20 世纪 90 年 代 初 期 到 中 期 ， 金 融 机 构 所 能 得 到 的 此 类 数据 急剧 增加 。 今 天 ， 甚 至 进行 
金融 研究 或 者 参与 算法 交易 的 个 人 都 可 以 得 到 大 量 的 历史 数据 ， 也 可 以 通过 流 服务 得 
到 实时 数据 。 这 使 我 们 可 以 专注 于 科学 方法 ， 科 学 方法 通常 从 数据 开始 ， 然 后 得 出 思 
路 、 假 设 、 模 型 和 策略 。 

用 一 个 简单 的 例子 就 可 以 说 明 ,， 如 今 在 本 地 机 器 上 利用 Python 和 Eikon Data APIs 订阅 
大 规模 专业 数据 有 多 么 简单 。 下 面 的 例子 是 读 取 的 苹果 公司 股票 常规 交易 日 中 一 个 小 
时 的 分 笔 交易 数据 。 读 取 的 报价 数据 ( 包括 交易 量 信 息 ) KAA 15000 条 。 由 于 股票 
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代码 为 AAPL， 所 以 路 透 金 融 工具 代码 (RIC) 为 AAPL.0: 


In [26]: import eikon as ek © 


In [27]: data = ek.get_timeseries('AAPL.O', fields='*', 
start_date='2018-10-18 16:00:00', 
end_date='2018-10-18 17:00:00', 
interval='tick') @ 


In [28]: data.info() @ 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 35350 entries, 2018-10-18 16:00:00.002000 to 
2018-10-18 16:59:59.888000 
Data columns (total 2 columns): 
VALUE 35285 non-null float64 
VOLUME 35350 non-null float64 
dtypes: floaté64 (2) 
memory usage: 828.5 KB 











In [29]: data.tail() © 

Out [29]: AAPL.O VALUE VOLUME 
Date 
2018-10-18 16:59:59.433 217.13 10.0 
2018-10-18 16:59:59.433 217.13 12.0 
2018-10-18 16:59:59.439 217.13 231.0 
2018-10-18 16:59:59.754 217.14 100.0 
2018-10-18 16:59:59.888 217.13 100.0 


© Eikon Data API 需要 订阅 和 API 连接 才能 使 用 。 
@ 读 取 苹果 公司 (AAPL.O ) 股票 分 笔 数 据 。 
© 显示 最 后 5 行 数据 。 
Eikon Data API 不 仅 可 以 访问 结构 化 金融 数据 〈 如 历史 报价 数据 )， 还 可 以 访问 新 闻 等 
非 结 构 化 数据 。 下 面 的 例子 读 取 一 小 部 分 新 闻 的 元 数据 ， 并 以 全 文本 方式 显示 其 中 一 
篇 文章 开头 的 内 容 。 

In [30]: news = ek.get_news_headlines('R:AAPL.O Language:LEN', 

date_from='2018-05-01', 


date_to='2018-06-29', 
count=7) © 
































versionCreated \ 
2018-06-28 23:00:00.000 2018-06-28 23:00:00.000 
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In 


In 


In 


In 


2018-06-28 21:23:26.526 2018-06-28 21:23:26.526 
2018-06-28 19:48:32.627 2018-06-28 19:48:32.627 
2018-06-28 17:33:10.306 2018-06-28 17:33:10.306 
2018-06-28 17:33:07.033 2018-06-28 17:33:07.033 
2018-06-28 17:31:44.960 2018-06-28 17:31:44.960 
2018-06-28 17:00:00.000 2018-06-28 17:00:00.000 


2018-06-28 23:00:00.000 RPT-FOCUS-AI ambulances and robot doctors: 


text 


2018-06-28 21:23:26.526 Why Investors Should Love Apple's (AAPL) 
2018-06-28 19:48:32.627 Reuters Insider - Trump: We're reclaiming our ... 
2018-06-28 17:33:10.306 Apple v. Samsung ends not with a whimper but a... 
2018-06-28 17:33:07.033 Apple's trade-war discount extended for anothe... 
2018-06-28 17:31:44.960 Other Products: Apple's fast-growing island of... 
2018-06-28 17:00:00.000 Pokemon Go creator plans to sell the tech behi... 
storylId \ 


\ 


TV 


Chi... 





En... 
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sourceCode 

2018-06-28 23:00:00.000 NS:RTRS 

2018-06-28 21:23:26.526 NS: ZACKSC 

2018-06-28 19:48:32.627 NS: CNBC 

2018-06-28 17:33:10.306 NS:WALLST 

2018-06-28 17:33:07.033 NS:WALLST 
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32]: story_html = ek.get_news_story(news.iloc[l1, 


33]: from bs4 import BeautifulSoup ® 


2]) @ 


34]: story = BeautifulSoup(story_html, '"htm1l5lib') .get_text () 





35]: print (story[83:958]) © 


© 


Jun 28, 2018 For years, investors and Apple AAPL have been beholden to 


the iPhone, which is hardly a negative since its flagship product is 


largely responsible for turning Apple into one of t 


companies. But Apple has slowly pushed into new growth areas, 


streaming television its newest frontier. So let's 


he world's biggest 


with 


take a look at what 


Apple has planned as it readies itself to compete against the likes of 


Netflix NFLX and Amazon AMZN in the battle for t 


he new age of 
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entertainment .Apple's second-quarter revenues jumped by 16% to reach 
$61.14 billion, with iPhone revenues up 14%. However, iPhone unit sales 
climbed only 3% and iPhone revenues accounted for over 62% of total Q2 
sales. Apple knows this is not a sustainable business model, because 
rare is the consumer product that can remain in vogue for decades. This 
is why Apple has made a big push into news, 


© 读 取 一 小 部 分 新 闻 的 元 数据 。 

@ 读 取 一 篇 文章 的 全 部 文本 ， 形 式 为 HTML 文档 。 
© 导入 BeautifulSoup HTML 解析 库 并 进行 后 续 操 作 。 
O 以 纯 文 本 方式 (str WH) 提取 内 容 。 

© 打印 新 闻 的 开头 。 


尽管 这 两 个 例子 很 浅显 ， 但 它们 说 明 ， 通 过 Python 包装 器 库 和 数据 订阅 服务 ， 可 以 以 
标准 化 、 高 效 的 方式 得 到 结构 化 和 非 结 构 化 的 金融 历史 数据 。 在 许多 情况 下 ， 个 人 其 
至 可 以 使 用 FXCM 集团 、LLC 等 交易 平台 (在 第 14 章 和 第 16 章 中 会 讲 到 ) 来 免费 获 
得 类 似 的 数据 集 , 一 旦 在 Python 级 别 上 得 到 数据 ( 独立 于 原始 来 源 ), 就 可 以 利用 Python 
数据 分 析 生 态 系统 的 全 部 功能 



































数据 驱动 金融 学 

® 近年 来 ， 数 据 成 了 金融 业 的 推动 力 。 即 使 最 大 、 最 成 功 的 对 冲 基 金 也 
自称 是 “数据 驱动 ”的 ， 而 非 “金融 驱动 ”的 。 越 来 越 多 的 服务 产品 
向 大 小 机 构 及 个 人 提供 海量 数据 。Python 通常 被 选 为 与 这 些 API 交 
互 、 处 理 和 分 析 数 据 的 编程 语言 。 


1.4.2 人工 智能 优先 金融 学 

由 于 通过 编程 API 能 够 取得 大 量 金融 数据 ， 所 以 在 金融 问题 ( 如 算法 交易 ) 上 应 用 人 工 
智能 (AL) 方法 、 特 别 是 机 各 与 深度 学 习 ( ML，DL ) 就 变 得 非常 容易 ， 也 更 有 成 果 了 。 
Python 可 以 称 得 上 AI 界 的 “宠儿 ”。 它 往往 被 AI 研究 人 员 和 从 业者 选 为 编程 语言 。 从 
这 个 意义 上 说 ， 金 融 领 域 从 不 同 领域 的 发 展 中 得 益 ， 这 些 领域 有 时 其 至 与 金融 没有 太 
大 的 联系 。 举 个 例子 ， 深 度 学 习 所 用 的 TensorFlow 开源 程序 库 是 Google 公司 开发 和 维 
护 的 ， 用 于 其 母 公司 Alphabet 自动 驾驶 汽车 的 制造 和 销售 上 。 

TensorFlow 当然 和 股票 自动 算法 交易 一 点 关联 都 没有 ， 但 却 可 以 用 于 预测 金融 市 场 的 
变动 。 第 15 章 提供 了 许多 这 方面 的 例子 。 最 广泛 使 用 的 Python ML 程序 库 是 scikit-learn. 
下 面 的 代码 以 高 度 简化 的 方式 说 明 : ML 分 类 算法 如 何 用 来 预测 期 货 价格 变动 方向 ， 并 
以 这 些 预测 为 基础 制定 一 个 算法 交易 策略 。 所 有 细节 将 在 第 15 章 中 解释 ， 因 此 这 个 例 
子 相当 简洁 。 首 先 ， 导 入 数据 ， 准 备 期 货 数 据 ( 定向 滞后 对 数 收益 率 数据 )。 
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In [36]: import numpy as np 


import pandas as pd 


In [37]: data 


ll 


pd.read_csv('../../source/tr_eikon_eod_data.csv', 
index_col=0, parse_dates=True) 

data = pd.DataFrame(data['AAPL.O']) © 

data['Returns'] = np.log(data / data.shift()) @ 

data.dropna (inplace=True) 


In [38]: lags 


Il 
fon) 


In [39]: cols = [] 
for lag in range(1, lags + 1): 
col = 'lag_{}'.format (lag) 
data[col] = np.sign(data['Returns'].shift(lag)) ® 
cols.append (col) 
data.dropna (inplace=True) 


O ERAF] (AAPL.O) 历史 日 终 数据 。 
@ 计算 整个 历史 数据 内 的 对 数 收益 率 。 
© 后 成 带 有 定向 滞后 对 数 收益 率 数 据 (+1 或 者 -1 ) 的 DateFrame 列 。 


接 下 来 ， 为 支持 向 量 机 (SVM ) 算法 、 模 型 拟 合 和 预测 步骤 实例 化 一 个 模型 对 象 。 
1-2 说 明 ， 根 据 预测 灭 进 和 卖 出 苹果 公司 股票 的 基于 预测 交易 策略 的 表现 胜 过 被 动 的 
基准 股票 投资 方法 。 














一 一 基准 
12 一 一 策略 


10 


G ， R 
4 NS o> 从 oy” oe” os as oY? ao” ao" oe 
Date 











1-2 基于 ML 的 算法 交易 策略 与 被 动 基准 投资 的 对 比 ( 苹果 公司 股票 ) 
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In [40]: from sklearn.svm import SVC 


In [41]: model = SVC(gamma='auto') © 


In [42]: model.fit(data[cols], np.sign(data['Returns'])) @ 
Out [42]: SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, 


decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf', 
max_iter=-1, probability=False, random_state=None, shrinking=True, 
tol=0.001, verbose=False) 


In [43]: data['Prediction'] = model.predict(data[cols]) © 


In [44]: data['Strategy'] = data['Prediction'] * data['Returns'] @ 





In [45]: data[['Returns', 'Strategy']].cumsum() .apply (np.exp) .plot ( 


figsize=(10, 6)); © 


O 实例 化 模型 对 象 。 























@ 根据 期 货 和 标签 数据 ( 全 部 是 定向 的 ) 拟 合 模型 。 

© 使 用 拟 合 模型 创建 预测 〈 样 本 内 )， 这 同时 是 交易 策略 的 头寸 ( 买 和 或 者 卖 出 )。 
@ 根据 预测 值 和 基准 对 数 收益 率 计算 交易 策略 的 对 数 收 益 率 。 

@ 绘制 基于 ML 交易 策略 表现 与 被 动 基准 投资 表现 的 对 比 曲 线 。 

这 里 采用 的 简化 方法 没有 考虑 交易 成 本 ， 也 没有 将 数据 集 分 为 训练 和 测试 子 集 。 但 是 ， 











这 个 例子 说 明 ， 








Ty 





至 少 从 技术 意义 上 , 将 ML 算法 应 用 到 金融 数据 有 多 么 简单 。 在 实践 





中 ， 需 要 考虑 一 些 重要 的 因素 (参见 Lopez de Prado (2018 ) )。 





作为 数据 驱动 4 





人 工 智能 优先 金融 学 

AI 将 像 对 待 其 他 领域 一 样 ， 重 塑 金融 行业 。 通 过 编程 API 功能 可 以 
取得 大 量 金 融 数 据 , 这 成 为 了 该 领域 的 引擎 。 第 13 章 中 介绍 AI、ML 
和 DL 基本 方法 ， 并 在 第 15 章 和 第 16 章 中 将 其 应 用 到 算法 交易 中 。 
不 过 ， 全 面 介绍 人 工 智 能 优先 金融 学 需要 一 本 专门 的 图 书 。 


会 融 学 的 自然 延伸 ， 不 管 从 研究 还 是 从 业者 的 角度 ， 金 融 学 中 的 人 工 智 





能 当然 也 是 一 个 令 人 痴迷 和 兴奋 的 领域 。 本 书 在 不 同 背 景 下 使 用 了 多 种 AI、ML 和 DL 
方法 , 但 总 体 的 焦点 与 本 书 的 副标题 相符 ， 仍 是 数据 驱动 金融 学 所 需 的 Python 基本 技 
术 与 方法 。 不 过 ， 这 些 技术 与 方法 对 人 工 智 能 优先 金融 学 同样 重要 。 











1.5 结语 
Python 作为 一 种 语言 ， 但 更 多 的 是 作为 生态 系统 ， 是 金融 业 理想 的 技术 框架 。 它 的 特 
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性 中 有 许多 好 处 ， 比 如 简洁 的 语法 、 高 效 的 开发 方法 和 原型 化 及 生产 的 易 用 性 等 。 利 
用 Python 大 量 的 可 用 库 和 工具 , 我 们 似乎 能 够 应 付 当 今 金 融 业 中 分 析 、 数据 量 和 频率 、 
依从 性 及 监管 所 引发 的 大 部 分 问题 。 即 使 在 较 大 型 的 金融 机 构 中 ,， 它 也 具备 提供 单一 
强大 、 一 致 性 的 框架 ， 简 化 端 到 端 开 发 和 生产 工作 的 潜力 。 

此 外 ，Python 已 经 成 为 人 工 智 能 、 特 别 是 机 器 与 深度 学 习 工 作者 选择 的 编程 语言 。 因 
IH, Python 对 于 数据 驱动 金融 学 和 人 工 智能 优先 金融 学 来 说 也 是 合适 的 语言 ， 这 两 种 
当今 的 趋势 将 从 根本 上 重 塑 金融 学 和 金融 行业 。 
























































1.6 ”延伸 阅读 
下 面 的 图 书 更 详细 地 介绍 了 本 章 浅 释 的 多 个 方面 (例如 Python 工具 、 衍 生 品 人 研 3 
需 学 习 概述 以 及 金融 中 的 机 需 学 习 )。 


e Hilpisch，Yves (2015). Derivatives Analytics with Python. Chichester, England: Wiley 


Finance. 





、 机 


ot 


e Lopez de Prado, Marcos (2018). Advances in Financial Machine Learning. Hoboken, 
NJ: John Wiley & Sons. 


e VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’ Reilly. 


至 于 算法 交易 ， 本 书 作者 的 公司 提供 了 一 系列 在 线 培 训 项 目 ， 该 计划 聚焦 于 Python 和 
其 他 工具 ， 以 及 这 个 迅速 成 长 的 领域 中 所 需 的 技术 。 


本 章 引 用 了 如 下 信息 来 源 。 


e Ding, Cubillas (2010). “Optimizing the OTC Pricing and Valuation Infrastructure.” 
Celent. 








e Lewis, Michael (2014). Flash Boys. New York: W. W. Norton & Company. 


e Patterson, Scott (2010). The Quants. New York: Crown Business. 
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盖 房 子 的 时 候 ， 木 料 的 选择 是 个 问题 。 


木匠 的 目标 本 质 上 就 是 携带 好 的 切 审 工具 。 在 他 有 时 间 的 时 候 ， 会 将 他 的 设 
备 磨 得 很 锋利 。 








TARA (五 轮 书 ) 

对 于 Python 新 手 来 说 ，Python 的 部 署 似乎 很 简单 。 丰 富 的 可 选 安装 库 和 程序 包 也 很 容 
易 安装 。 首先 , Python 不 止 一 种 , 它 有 许多 不 同 的 “风味 ”， 如 CPython Jython, IronPython 
和 PyPy。 然 后 ，Python 2.7 和 3.x 也 是 不 同 的 世界 。 


即便 在 你 决定 了 使 用 哪 一 版 本 之 后 ， 部 署 也 很 困难 ， 原 因 如 下 : 

。 ”解释 程序 (标准 CPython 安装 ) 只 带 有 所 谓 的 “标准 库 ”( 例如 ， 包 含 了 典型 的 数 
学 函数 ); 

。 ”可 选 的 Python 软件 包 必须 单独 安装 ， 它 们 有 数 百 种 之 多 ; 

。 ”由 于 依赖 性 和 操作 系统 的 特定 需求 ， 自 行 编译 /构建 这 些 非 标准 包 可 能 很 困难 ; 

。 ”需要 随时 注意 依赖 性 和 版 本 一 致 性 (也 就 是 维护 工作 )， 这 乏味 且 费 时 ; 

。  ” 某 些 包 的 更 新 升级 可 能 需要 重新 编译 许多 其 他 的 软件 包 ; 

。 ”更 新 或 者 蔡 换 一 个 包 ， 可 能 在 其 他 〈 许 多 ) 地方 造 成 麻烦 。 

幸运 的 是 ， 我 们 可 以 求助 于 工具 和 策略 。 本 章 将 介绍 以 下 有 助 于 Python 部 署 的 技术 。 

É PHS 


pip 和 conda 等 包 管 理 器 用 于 安装 、 更 新 和 删除 Python 软件 包 ; 它们 还 有 助 于 保持 
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1 本 版 基于 CPython 3.7〈 写作 时 最 新 的 主 版 本 )， 这 是 Python 编程 语言 最 受 欢 迎 的 原创 版 本 。 一 一 原 注 
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不 同 包 的 版 本 一 致 性 。 
Ewa he GE 
virtualenv 或 conda 等 虚拟 环境 管理 器 可 以 并 行 管 理 多 种 Python 安装 (例如 ， 在 单 
一 机 器 上 安装 Python 2.7 和 3.7， 以 便 无 风险 地 测试 某 个 有 趣 的 Python 软件 包 的 最 
新 开发 版 本 ) 。 








q 


2 
全 也 


X 


Docker 容器 代表 着 包含 运行 特定 软件 所 需 的 全 部 系统 部 件 ( 如 代码 、 运 行 时 库 或 
系统 工具 ) 的 完整 文件 系统 。 例 如, 你 可 以 在 运行 macos 或 者 Windows10 的 一 台 
机 器 上 ， 在 一 个 Docker 容器 里 运行 Ubuntu 18.04 操作 系统 ， 并 在 其 中 安装 Python 
3.7 和 单独 的 Python 代码 。 
AEP 
为 金融 应 用 部 署 Python 代码 通常 要 求 高 可 用 性 、 安 全 性 和 高 性 能 ; 这 些 需求 一 般 
只 能 利用 专业 计算 及 存储 基础 设施 满足 。 目 前 ， 这 种 基础 设施 以 情况 良好 的 云 实 
例 形式 存在 ， 规 模 从 小 到 大 不 等 。 与 长 期 租赁 的 专用 服务 器 相 比 ， 云 实例 ( 也 就 
是 虚拟 服务 器 ) 的 好 处 之 一 是 ， 用 户 通常 只 需要 按照 实际 使 用 的 时 间 付 费 ; 另 一 
个 好 处 是 ， 这 种 云 实例 在 需要 时 一 两 分 钟 内 就 能 投入 使 用 ， 有 助 于 敏捷 开发 并 提 
高 伸缩 性 。 


本 章 的 结构 如 下 。 
TEA E E BB Be JA 89 conda 

本 节 介 绍 作为 Python 包 管 理 器 使 用 的 conda。 
EAE WH EE B 1€ M 49 conda 

这 一 节 专 注 于 conda 作为 虚拟 环境 管理 器 的 功能 。 
BA Docker ZE 


这 一 节 简 单 概述 了 Docker 容 需 化 技术 ， 聚 焦 于 构建 带 有 Python 3.7 安装 的 Ubuntu 
容器 。 
RARE 
本 节 介 绍 在 云 中 部 署 Python 和 Jupyter Notebook 的 方法 ， 后 者 是 一 个 基于 浏览 需 
的 、 功 能 强大 的 Python 部 署 工具 套件 。 
本 章 的 目标 是 在 专业 基础 设施 上 建立 一 个 合适 的 Python 环境 ， 包 含 最 重要 的 工具 以 及 
数值 、 数 据 分 析 和 可 视 化 软件 包 E )。 此 后 ， 这 一 组 合 将 作为 实现 和 部 署 后 续 章 节 中 






















































































1 最 新 的 pipenv 项 目 结合 了 包 管 理 器 pip 和 虚拟 环境 管理 器 virtualenv 的 功能 。 








原 注 
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Python 代码 的 支柱 ， 不 管 这 些 代码 是 交互 式 的 金融 分 析 代 码 ， 还 是 以 脚本 和 模块 形 
出 现 的 。 





2.1 作为 包 管 理 器 使 用 的 conda 


conda 可 以 单独 安装 ， 但 是 更 有 效 的 方法 之 一 是 通过 Miniconda 安装 ， 这 是 一 个 包 
conda、 并 将 conda 作为 包 和 虚拟 环境 管理 器 使 用 的 最 小 化 Python 分 发 版 本 。 



































2.1.1 安装 Miniconda 
Miniconda 可 用 于 Windows. macOS 和 Linux。 你 可 以 从 Miniconda 网 页 上 下 载 不 同 




















起 


含 


的 


版 本 。 以 下 假定 安装 的 是 Python 3.7 64 位 版 本 。 本 节 的 主要 例子 是 基于 Ubuntu 的 Docker 














容器 中 的 一 个 会 话 ， 通 过 weet FE Linux 64 位 安装 程序 ， 然 后 安装 Miniconda。 下 
的 代码 应 该 可 以 在 任何 Linux 或 者 macos 机 器 上 正常 工作 (可 能 需要 做 少量 修改 )。 


$ docker run -ti -h py4fi -p 11111:11111 ubuntu:latest /bin/bash 

















root@py4fi:/# apt-get update; apt-get upgrade -y 
root@py4fi:/# apt-get install -y bzip2 gcc wget 


root@py4fi:/# cd root 
root@py4fi:~# wget \ 


面 


> https://repo.continuum.io/miniconda/Miniconda3—latest—Linux-x86_64.sh \ 


> -O miniconda.sh 








HTTP request sent, awaiting response... 200 OK 

Length: 62574861 (60M) [application/x-sh] 

Saving to: 'miniconda.sh' 

miniconda.sh 100%[ >] 59.68M 5.97MB/s in 11s 
2018-09-15 09:44:28 (5.42 MB/s) - 'miniconda.sh' saved [62574861/62574861] 


root@py4fi:~# bash miniconda.sh 


Welcome to Miniconda3 4.5.11 


In order to continue the installation process, please review the license 


agreement. 





Please, press ENTER to continue 
>>> 





FX Enter 键 开 始 安装 过 程 。 阅 读 许 可 协议 后 ， 单 击 “yes” 按 钮 同意 条 款 。 
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Do you accept the license terms? [yes|no] 
[no] >>> yes 


Miniconda3 will now be installed into this location: 
/root/miniconda3 





- Press ENTER to confirm the location 
— Press CTRL-C to abort the installation 
- Or specify a different location below 





[/root/miniconda3] >>> 
PREFIX=/root/miniconda3 
installing: python-3.7. 


installing: requests-2.19.1-py37_0 
installing: conda-4.5.11-py37_0 
installation finished. 





司 意 许可 条 款 并 确认 安装 位 置 之 后 ， 你 应 该 再 次 单 击 “yes” 按 钮 ， 人 允许 Miniconda 将 
新 的 Miniconda 安装 位 置 附加 到 PATH 环境 变量 中 。 





Do you wish the installer to prepend the Miniconda3 install location 
to PATH in your /root/.bashre ? [yes|no] 
[no] >>> yes 


Appending source /root/miniconda3/bin/activate to /root/.bashre 
A backup will be made to: /root/.bashrc-miniconda3.bak 
For this change to become active, you have to open a new terminal. 


Thank you for installing Miniconda3! 
root@py4fi:~# 


此 后 ， 你 可 能 想 要 升级 conda 和 Python. 


root@py4fi:~# export PATH="/root/miniconda3/bin/:$PATH" 
root@py4fi:~# conda update -y conda python 


root@py4fi:~# echo ". /root/miniconda3/etc/profile.d/conda.sh" >> ~/.bashrc 
root@py4fi:~# bash 





在 这 一 相当 简单 的 安装 过 程 之 后 ， 你 就 可 以 使 用 基本 的 Python 安装 和 conda 了 。 基 本 
Python 安装 包含 了 一 些 很 好 的 功能 ， 如 SQLite3 数据 库 引 敬 。 在 对 应 的 环境 变量 中 附 








1 


Miniconda 安装 程序 通常 不 像 conda 和 Python 那样 经 常 更 新 。 一 一 原 注 
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加 相关 路 径 〈 正如 前 面 所 做 的 那样 ) 之 后 ， 你 可 以 试验 能 否 从 新 的 Shell 实例 中 启动 
Python: 


root@py4fi:~# python 

Python 3.7.0 (default, Jun 28 2018, 13:15:42) 

[GCC 7.2.0] :: Anaconda, Inc. on linux 

Type "help", "copyright", "credits" or "license" for more information. 
>>> print ('Hello Python for Finance World.') 

Hello Python for Finance World. 

>>> exit () 


root@py4fi:~# 


2.1.2 conda 基本 操作 
conda 可 用 于 高 效 地 处 理 Python 软件 包 的 安装 、 更 新 和 删除 。 接 下 来 概述 一 下 主要 功能 。 
ZK Python x.x BK 





conda install python=x.x 


Æ # Python 


conda update python 


CRI 





conda install $PACKAGE_NAME 
LFRY EA 

conda update $PACKAGE_NAME 
HY IRB AE AL 

conda remove $PACKAGE_NAME 


 # conda 


conda update conda 


BRREERG GE 


conda search S$SEARCH_TERM 














I ORB EG 


conda list 





考虑 到 这 些 功 能 ， 安 装 NumPy 一 一 所 谓 “科学 栈 ” 中 最 重要 的 库 之 一 一 一 只 需要 一 条 
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命令 。 在 装 有 Intel 处 理 器 的 机 器 上 安装 时 ， 将 自动 安装 Intel 数学 核心 库 (Intel Math 
Kernel Library , DE ), FEA ee 速 NumPy 的 数值 运算 , 而 且 对 其 他 几 个 Python 
科学 库 也 有 作用 。 


root@py4fi:~# conda install numpy 














Solving environment: done 

## Package Plan ## 
environment location: /root/miniconda3 
added / updated specs: 


numpy 


The following packages will be downloaded: 























Package build 
mk1-—2019.0 117 204.4 MB 
intel-openmp-2019.0 117 721 KB 
mkl_random-1.0.1 py37h4414c95_1 372 KB 
libgfortran-ng-7.3.0 hd£63c60_0 1.3 MB 
numpy-1.15.1 py37h1d66e8a_0 37 KB 
numpy-base-1.15.1 py37h81de0dd_0 4.2 MB 
blas-1.0 mkl 6 KB 
mkl_fft-1.0.4 py37h4414c95_1 149 KB 
Total 211.1 MB 

The following NEW packages will be INSTALLED: 

blas: 1.0-mk1 

intel-openmp: 2019.0-117 

libgfortran-ng: 7.3.0-hdf63c60_0 

mkl: 2019.0-117 

mkl_fft: 1.0.4-py37h4414c95_1 

mkl_random: 1.0.1-py37h4414c95_1 

numpy: 1.15.1-py37h1d66e8a_0 

numpy-base: 1.15.1-py37h81de0dd_0O 


Proceed ([y]/n)? y 








1 安装 元 软件 包 nomkl (例如 使 用 命令 conda install numpy nomk1l )， 可 以 避免 自动 安装 和 使 
用 mkl 及 其 他 相关 软件 包 。 一 一 原 注 
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Downloading and Extracting Packages 





mk1-2019.0 | 204.4 MB | #44 HAHA EAE EAE EAE EAE EEEE | 
100% 

numpy-1.15.1 | 37 KB | AEB REARS | 
100% 

numpy-base-1.15.1 | 4.2 MB | ABBE HHA | 
100% 


root@py4fi:~# 


也 可 以 一 次 性 安装 多 个 软件 包 。-y 标志 表示 所 有 【可 能 的 ) 问题 都 以 yes 回答 。 


root@py4fi:/# conda install -y ipython matplotlib pandas pytables scik 
it-learn \ 


> scipy 


pytables-3.4.4 | 1.5 MB | FHHHEEHHEEEHHEEEHEEEPHEEEHHTE HEHE HEHE | 
100% 

kiwisolver-1.0.1 | 83 KB | FHHHEEHHEEAHHEE HHT PHEEEHHEE EERE | 
100% 

icu-58.2 | 22.5 MB | ####¢##FEHHEEEHEEEHHEEE HEE EHHEEE HEHEHE | 
100% 

Preparing transaction: done 

Verifying transaction: done 

Executing transaction: done 

root@py4fi:~# 


安装 过 程 结束 后 ， 除 了 标准 库 之 外 ， 一 些 重要 的 金融 分 析 库 也 已 经 可 用 ， 包 括 : 
IPython 
改进 的 交互 式 Python shell; 
Matplotlib 
Python 标准 绘图 库 ; 
NumPy 
用 于 高 效 处 理 数组 ; 
pandas 
用 于 管理 表格 数据 ， 例 如 金融 时 间 序 列 数据 ; 
PyTables 




















Python HDFS 库 封 装 器 ; 
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scikit-learn 
机 器 学 习 和 相关 任务 所 用 的 软件 包 ; 
SciPy 
一 组 科学 类 和 函数 ( 以 依赖 的 形式 安装 ) 。 
这 就 为 数据 分 析 、 特 别 是 金融 分 析 提 供 了 一 个 基本 工具 集 。 下 面 的 例子 使 用 IPython 和 
NumPy 提取 了 一 组 伪 随 机 数 。 


root@py4fi:~# ipython 
Python 3.7.0 (default, Jun 28 2018, 13:15:42) 
Type 'copyright', 'credits' or 'license' for more information 








IPython 6.5.0 -- An enhanced Interactive Python. Type '?' for help. 


In [1]: import numpy as np 


In [2]: np.random.seed(100) 





In [3]: np.random.standard_normal((5, 4)) 


Out [3] 

array ([[-1.74976547, 0.3426804 , 1.1530358 , -0.25243604], 
[ 0.98132079, 0.51421884, 0.22117967, -1.07004333], 
[-0.18949583, 0.25500144, -0.45802699, 0.43516349], 
[-0.58359505, 0.81684707, 0.67272081, -0.10441114], 
[-0.53128038, 1.02973269, -0.43813562, -1.11831825]]) 


In [4]: exit 
root@py4fi:~# 


执行 conda list 命令 显示 已 安装 的 软件 包 。 


root@py4fi:~# conda list 
# packages in environment at /root/miniconda3: 


# 

# Name Version Build Channel 
asnicrypto 0.24.0 py37_0 
backcall 0.1.0 py37_0 

blas 1.0 mkl 

blosc 1.14.4 hdbcaa40_0 

bzip2 1.0.6 h14c3975_5 

python Big 156-0 hc3d631a_0 

wheel 0.31.1 py37_0 

XZ 5.2.4 h14c3975_4 
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yaml 0.1.7 had09818_2 
zlib LeZe kD ha838bed_2 
root@py4fi:~# 


如 果 不 再 某 个 包 需 要 ， 可 以 用 conda remove 将 其 高 效 删除 。 


root@py4fi:~# conda remove scikit-—learn 


Solving environment: done 
## Package Plan ## 
environment location: /root/miniconda3 


removed specs: 


— scikit-learn 


The following packages will be REMOVED: 





scikit-learn: 0.19.1-py37hedc7406_0 


Proceed ([y]/n)? y 


Preparing transaction: done 
Verifying transaction: done 
Executing transaction: done 
root@py4fi:~# 














conda Hy’ Hear EAA SCA. SAI, FEDER i, UR AREA EN 
部 威力 。 


简易 包 管 理 

conda 作为 包 管 理 器 ， 可 以 使 Python 软件 包 的 安装 、 更 新 和 删除 变 得 
很 简单 。 没 有 必要 自行 构建 和 编译 软件 包 一 一 考虑 到 软件 包 指定 的 依 
赖 列表 和 不 同 操 作 系 统 所 需 考 虑 的 细节 ， 这 一 步 有 时 可 能 很 糠 手 。 





2.2 ”作为 虚拟 环境 管理 器 的 conda 


根据 你 所 选择 的 安装 程序 版 本 ，Miniconda 提供 了 默认 的 Python 2.7 或 者 3.7 安装 。conda 
的 虚拟 环境 管理 器 可 以 允许 不 同 的 组 合 ， 例 如 ， 在 Python 3.7 默认 安装 的 基础 上 增加 一 
个 完全 独立 的 Python 2.7.x 安装 。 为 此 ，conda 提供 了 以 下 功能 。 


CEM RI 

















conda create --name SENVIRONMENT_NAME 





2.2 ”作为 虚拟 环境 管理 器 的 conda 37 





MER 





conda activate SENVIRONMENT_NAME 














PIERS 


conda deactivate SENVIRONMENT_NAME 





MYR ASE 





conda env remove --name SENVIRONMENT_NAM 





ku 


fH ARR XE 








conda env export > SFILE_NAME 








KREME BY ERE 





conda env create -f S$FILE_NAME 


A LDR AS 


conda info --envs 








下 面 的 代码 是 一 个 简单 的 示意 : 创建 一 个 名 为 py27 的 环境 , 在 其 中 安装 IPython, 并 执 
行 一 行 Python 2.7.x 代码 。 


root@py4fi:~# conda create --name py27 Python=2 .7 


Solving environment: done 
## Package Plan ## 
environment location: /root/miniconda3/envs/py27 


added / updated specs: 
— python=2.7 





The following NEW packages will be INSTALLED: 


ca-certificates: 2018.03.07-0 


python: 2.7.15-h1571d57_0 


zlib: 1.2.11-ha838bed_2 


Proceed ([y]/n)? y 


Preparing transaction: done 
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Verifying transaction: done 
Executing transaction: done 
To activate this environment, use: 


> conda activate py27 





[To deactivate an active environment, use: 


> conda deactivate 


Se OH OSE E H H HE 


root@py4fi:~# 


注意 激活 环境 之 后 提示 符 的 变化 (py27 )。 


root@py4fi:~# conda activate py27 
(py27) root@py4fi:~# conda install ipython 


Solving environment: done 


Executing transaction: done 
(py27) root@py4fi:~# 








最 后 ， 以 下 代码 允许 你 以 Python 2.7 语法 使 用 IPython。 


(py27) root@py4fi:~# ipython 
Python 2.7.15 | Anaconda, Inc. | (default, May 1 2018, 23:32:55) 
Type "copyright", "credits" or "license" for more information. 


IPython 5.8.0 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
squickref -> Quick reference. 

Help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for extra details. 


In [1]: print "Hello Python for Finance World!" 
Hello Python for Finance World! 


In [2]: exit 
(py27) root@py4fi:~# 


如 上 例 所 示 ， 将 conda 作为 虚拟 环境 管理 器 使 用 ， 你 可 以 同时 安装 不 同 的 Python 版 本 ， 
还 可 以 安装 某 些 包 的 不 同 版 本 。 默 认 Python 的 安装 不 受 这 一 过 程 的 影响 ， 存 在 于 同一 
台 机 器 上 的 其 他 环境 也 是 如 此 。conda env list 可 显示 所 有 可 用 环境 。 


(py27) root@py4fi:~# conda env list 




















# conda environments: 


# 
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/root/miniconda3 
* /root/miniconda3/envs/py27 


base 
py27 


(py27) root@py4fi:~# 
有 时 候 ， 你 需要 与 其 他 人 共享 环境 信息 ， 或 者 在 多 台 机 器 上 使 用 环境 信息 。 为 此 ， 可 
以 用 conda env export 将 已 安装 程序 包 列 表 导 出 到 一 个 文件 中 。 这 只 默认 适用 于 
使 用 相同 操作 系统 的 机 器 ， 因 为 结果 YAML 文件 中 指定 构建 版 本 ,但 可 以 将 其 删 掉 ， 
只 指定 软件 包 版 本 。 


root@py4fi:~# conda env export --no-builds > py27env.yml 


























(py27) 
(py27) root@py4fi:~# cat py27env.yml 


name: py27 
channels: 

- defaults 
dependencies: 

— backports=1.0 


- python=2.7.15 


= zlib=1.2.11 
prefix: /root/miniconda3/envs/py27 
(py27) root@py4fi:~# 


从 技术 上 说 ， 虚 拟 环境 不 过 是 一 个 特定 的 〈 子 ) 文件 夹 结 构 ， 创 建 它们 往往 是 为 了 进行 一 
些 快速 测试 。 在 这 种 情况 下 ,停止 后 的 环境 很 容易 用 conda env remove 删除 。 
































(py27) root@py4fi:/# conda deactivate 
root@py4fi:~# conda env remove -y --name py27 


Remove all packages in environment /root/miniconda3/envs/py27: 


## Package Plan ## 


environment location: /root/miniconda3/envs/py27 














The following packages will be REMOVE 








在 Python 的 官方 文档 中 ,可 以 找到 如 下 解释 :“Python“ 虚 拟 环境 ”允许 Python 软件 包 安 装 于 特定 
应 用 的 独立 位 置 中 ， 而 不 是 全 局 安装 。 一 一 原 注 


1 











a 
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backports: 1.0-py27_1 
zlib: 1.2.11-ha838bed_2 


root@py4fi:~# 


conda 的 虚拟 环境 管理 天 的 功能 概述 到 此 结束 。 








简易 环境 管理 

conda 不 仅 有 助 于 包 管 理 ， 还 是 Python 的 虚拟 环境 管理 器 。 它 简化 了 
不 同 Python 环境 的 创建 ,允许 在 同一 台 机 器 上 使 用 多 个 版 本 的 Python 
和 可 选 包 ,， 这些 不 同 版 本 不 会 互相 影响 。conda 还 可 以 导入 环境 信息 ， 
因此 你 可 以 轻松 地 在 多 台 机 器 上 复制 环境 ， 或 者 与 他 人 共享 。 








2.3 使 用 Docker 容器 


Docker 容器 已 经 征服 了 IT 界 。 虽 然 这 种 技术 仍然 相对 年 轻 , 但 已 经 为 几乎 所 有 类 型 软 
件 应 用 的 高 效 开发 与 部 署 确立 了 一 个 标杆 。 

在 本 书 中 ， 你 可 以 将 Docker 容器 看 作 一 个 独立 (RRE ) 文件 系统 ， 它 包含 操作 系 
统 (例如 Ubuntu Server 18.04 )、( Python ) 运行 时 库 、 其 他 系统 与 开发 工具 ， 以 及 需要 
的 其 他 ( Python ) 库 和 软件 包 。 这 样 的 一 个 Docker 容器 可 以 运行 在 Windows 10 本 地 机 
器 上 ， 或 者 使 用 Linux 操作 系统 的 云 实例 上 。 
本 节 不 打算 介绍 Docker 容 需 所 有 激动 人 心 的 细节 ， 而 是 简洁 地 说 明 Docker 技术 在 
Python 开发 领域 所 能 发 挥 的 能 力 。 ' 


2.3.1 Docker 镜像 和 容器 
不 过 ， 在 说 明之 前 ， 我 们 必须 区 分 Docker 的 两 个 基本 概念 。 首 先是 Docker 镜像 
(Image ), 它 可 以 比 作 Python 的 一 个 类 。 其 次 是 Docker 容器 , 它 可 以 比 作对 应 Python 
类 的 一 个 实例 。 
你 可 以 从 Docker 词汇 表 上 找到 镜像 更 为 技术 性 的 定义 : 
Docker 镜像 是 容器 的 基础 。 镜 像 是 根 文 件 系统 变化 和 用 于 容器 运行 时 库 内 部 
的 对 应 执行 参数 的 一 个 有 序 集合 。 镜 像 通常 包含 一 组 相互 堆 合 的 分 层 文件 系 
统 ， 它 没有 状态 ， 也 永远 不 会 变化 。 






































1 Docker 技术 的 全 面 介绍 参见 Matthias and Kane ( 2015 )。 一 一 原 注 
2 如 果 对 这 个 术语 的 理解 还 不 够 清晰 ， 不 用 担心 ， 第 6 章 将 做 进一步 介绍 。 
































原 注 
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类 似 地 , 你 可 以 在 Docker 词汇 表 上 找到 容器 的 定义 , 这 使 得 与 Python 类 和 类 实例 的 对 
比 变 得 很 清晰 : 
容器 是 Docker 镜像 的 运行 时 实例 。 一 个 Docker 实例 包括 : 一 个 Docker 镜像 、 
一 个 执行 环境 和 一 个 标准 指令 集 。 
根据 操作 系统 的 不 同 ，Docker 的 安装 略 有 不 同 ， 这 就 是 本 节 不 做 详 述 的 原因 。 更 多 的 
言 息 和 链接 可 以 在 About Docker CE 页 面 上 找到 。 


2.3.2 ”构建 Ubuntu 和 Python Docker 镜像 


本 节 举 例 说 明基 于 Ubuntu 最 新 版 本 的 Docker 镜像 的 构建 方法 ,镜像 中 还 包括 Miniconda 
和 几 个 重要 的 Python 软件 包 。 此 外 ， 通 过 更 新 Linux 软件 包 索 引 、 在 必要 时 升级 软件 
包 并 安装 某 些 附加 的 系统 工具 ， 我 们 可 以 进行 一 些 Linux 的 “内 务 整理 ”工作 。 这 方面 
的 工作 需要 两 个 脚本 ， 一 个 是 完成 所 有 Linux 层面 工作 的 bash 脚本 '。 另 一 个 是 所 谓 的 
Dockerfile， 即 控制 镜像 本 身 的 构建 过 程 
例 2-1 中 的 bash 安装 脚本 包括 3 个 主要 部 分 。 第 一 部 分 处 理 Linux“ 内 务 "。 第 二 部 分 
安装 Miniconda， 第 3 部 分 安装 Python 可 选 程序 包 。 更 详细 的 注释 请 见 脚 本 。 


例 2-1 安装 Python 和 可 选 包 的 脚本 




















O 








#!/bin/bash 


Script to Install 
Linux System Tools and 
Basic Python Components 


# 
# 
# 
# 
# 
# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 

# GENERAL LINUX 

apt-get update # updates the package index cache 
apt-get upgrade -y # updates packages 

# installs system tools 

apt-get install -y bzip2 gcc git htop screen vim wget 
apt-get upgrade -y bash # upgrades bash if necessary 
apt-get clean # cleans up the package index cache 


# INSTALL MINICONDA 

# downloads Miniconda 

wget https://repo.continuum.io/miniconda/Miniconda3-latest—Linux-x86_ 
64.sh -0 \ Miniconda.sh 





1 Consult Robbins (2016) 对 bash 脚本 做 了 简洁 的 介绍 和 概述 。 一 一 原 注 
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bash Miniconda.sh -b # installs it 
rm -rf Miniconda.sh # removes the installer 


export PATH="/root/miniconda3/bin:$PATH" # prepends the new path 


# INSTALL PYTHON LIBRARIES 
conda update -y conda python # updates conda & Python (if required) 
conda install -y pandas # installs pandas 


conda install -y ipython # installs IPython shell 


例 2-2 中 的 Dockerfile 使 用 例 2-1 中 的 bash 脚本 ， 从 而 构建 了 一 个 新 的 Docker 镜像 。 
EN ESA ARIE. 


例 2-2 构建 镜像 的 Dockerfile 











Building a Docker Image with 
the Latest Ubuntu Version and 
Basic Python Install 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Se SR SR SR SR Sk SR Sk 


# latest Ubuntu version 
FROM ubuntu:latest 


# information about maintainer 
MAINTAINER yves 


# add the bash script 
ADD install.sh / 


+ 


change rights for the script 
UN chmod u+x /install.sh 


由 


He 


run the bash script 
UN /install.sh 





wD 


# prepend the new path 
ENV PATH /root/miniconda3/bin:$SPATH 


# execute IPython when container is run 
CMD ["ipython"] 


如 果 这 两 个 文件 在 一 个 文件 夹 里 且 安装 了 Docker， 那 么 构建 新 镜像 就 很 简单 了 。 这 
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里 为 镜像 使 用 了 ubuntupython 标签 ， 这 个 标签 是 引用 镜像 时 必需 的 ， 例 如 在 根据 
它 运行 容器 时 。 


~/Docker$ docker build -t py4fi:basic 


Removing intermediate container 5fec0c9b2239 
---> acceel28d9e9 

Step 6/7 : ENV PATH /root/miniconda3/bin:$PATH 
---> Running in a2bb97686255 
Removing intermediate container a2bb97686255 
—--> 73b00¢c215351 

Step 7/7 : CMD ["ipython"] 

---> Running in ec7acd90c991 
Removing intermediate container ec7acd90c991 
—--> 6¢36b9117cd2 

Successfully built 6c36b9117cd2 

Successfully tagged py4fi:basic 

~/Docker$ 


MA Docker 镜像 可 以 用 docker images 列 出 。 新 镜像 出 现在 列表 的 开头 : 


(py4fi) ~/Docker$ docker images 








REPOSITORY TAG IMAGE ID CREATED SIZE 
py4fi basic £789dd230d6f About a minute ago 1.79GB 
ubuntu latest cdéd8154flel 9 days ago 84.1MB 


(py4fi) ~/Dockers$ 


成 功 地 构建 py4fi:basic 之 后 ， 你 就 可 以 用 docker run 运行 对 应 的 Docker 容器 。 
参数 组 合 -ti 是 在 Docker 容器 内 部 运行 交互 过 程 (如 Shell 过 程 ) 时 所 需 的 (参见 docker 
run 参考 页 面 ): 








~/Docker$ docker run -ti py4fi:basic 
Python 3.7.0 (default, Jun 28 2018, 13:15:42) 


Type 'copyright', 'credits' or 'license' for more information 
IPython 6.5.0 -- An enhanced Interactive Python. Type '?' for help. 
In [1]: import numpy as np 

In [2]: a = np.random.standard_normal((5, 3)) 

In [3]: import pandas as pd 

In [4]: df = pd.DataFrame(a, columns=['a', 'b', 'c']) 

In [5]: df 
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Out [5 

a b C 
0 -1.412661 -0.881592 1.704623 
1 -1.294977 0.546676 1.027046 
2 1.156361 1.979057 0.989772 
3 0.546736 -0.479821 0.693907 
4 -1.972943 -0.193964 0.769500 
In [6 





























退出 [Python 也 将 退出 该 容器 ， 因 为 [Python 是 容器 中 运行 的 唯一 应 用 程序 。 不 过 ， 你 


可 以 输入 Ctrl-P、Ctrl-Q KEI FAKE. 





RAZA, docker ps 命令 仍 会 显示 运行 中 的 容器 〈 以 及 当前 运行 的 其 他 任何 容器 ): 


~/Docker$ docker ps 
CONTAINER ID IMAGE COMMAND CREATED 








STATUS 


e815df8f0f4d py4fi:basic "ipython" About a minute ago Up About a minute 


4518917de7dc ubuntu:latest "/bin/bash" About an 
d081b5c7add0 ubuntu:latest "/bin/bash" 21 hours 
~/Docker$ 


hour ago Up About an hour 
ago Up 21 hours 


Docker 容器 的 连接 可 用 docker attach SCONTAINER_ID 命令 完成 (注意 , SCONTAINER_ 


ID 只 需要 几 个 字符 就 够 了 ): 


~/Docker$ docker attach e815d 


In [6]: df.info() 

<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 5 entries, 0 to 4 

Data columns (total 3 columns): 


a 5 non-null float64 
b 5 non-null float64 
ca 5 non-null float64 


dtypes: floaté64 (3) 
memory usage: 200.0 bytes 


In [7]: exit 
~/Docker$ 


exit 命令 会 终止 [Python 并 停止 Docker 容器 。 容 器 可 用 docker rm 删除 : 


~/Docker$ docker rm e815d 
e815d 
~/Docker$ 


类 似 地 ， 如 果 不 再 需要 Docker 容器 py4fi:basic, AJ 








以 通过 docker rmi 删除 。 虽 
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然 容 器 相对 轻 量 ， 但 单独 容器 仍 可 能 消耗 相当 一 部 分 存储 容量 。 以 py4fi:basic 为 
例 ， 其 大 小 接近 2GB。 这 也 就 是 你 可 能 想 要 定期 清理 Docker 镜像 列表 的 原因 : 


~/Docker$ docker rmi 6c36b9117cd2 
当然 ， 关 于 Docker 容器 及 其 在 某 些 应 用 场景 中 的 好 处 ， 还 有 许多 好 的 讲解 。 但 对 于 本 
书 ， 你 只 需要 知道 ， 容 器 为 部 署 Python 、 在 完全 独立 〈 容器 化 ) 的 环境 中 完成 Python 
开发 和 为 交付 算法 交易 代码 提供 了 一 种 现代 化 方法 ， 就 足够 了 。 


Docker 容器 的 好 处 
如 果 你 还 没有 使 用 Docker 容器 ， 应 该 考虑 试 试 它 。 它 们 为 Python 部 
署 与 开发 工作 提供 了 许多 好 处 ， 不 仅 在 本 地 工作 时 如 此 ， 在 使 用 远程 


云 实例 与 服务 器 部 署 算法 交易 代码 时 更 具 优势 。 














2.4 使 用 云 实例 


本 节 介绍 在 DigitalOcean 云 实例 上 建立 全 套 Python 基础 架构 的 方法 。 甚 他 的 云 提 供 商 还 有 
很 多 ， 如 业界 领先 的 Amazon Web Services。 但 是 Digital Ocean 以 简易 而 闻名 ， 对 于 小 型 云 
实例 〈 称 作 水 滴 (Droplet ) ) 来 说 ， 价 格 也 相对 低 。 研 究 和 开发 通常 使 用 最 小 的 Droplet 就 
足够 了 ， 其 费用 只 有 每 月 5 美元 (或 者 每 小 时 0.007 美元 )。 收 费 按 小 时 计算 ， 因 此 人 们 可 
以 轻松 地 使 用 一 个 Droplet 两 个 小 时 ， 然 后 将 其 删除 ， 这 只 需要 支付 0.014 美元 。 

本 节 的 目标 是 在 DigitalOcean 上 建立 一 个 Droplet， 它 包含 Python 3.7 安装 包 和 典型 的 
软件 包 ( 例如 NumPy 、pandas )， 并 与 一 个 密码 保护 、 用 安全 套 接 字 层 (SSL ) 加 密 的 
Jupyter Notebook 服务 器 安装 相 结 合 。 这 个 服务 右 安 装 将 提供 3 个 可 通过 常规 浏览 器 使 
用 的 重要 工具 。 


Jupyter Notebook 
流行 的 交互 开发 环境 ， 其 特点 是 可 以 选择 不 同 语言 内 核 (例如 ，Python 、R 和 Julia )。 


可 通过 浏览 需 访 问 的 系统 Shell 实现 ， 能 完成 所 有 典型 系统 管理 任务 、 对 Vim 和 
git 等 实用 工具 的 使 用 。 













































































基于 浏览 器 的 文件 编辑 器 ,可 以 对 许多 不 同 编程 语言 及 文件 类 型 的 语法 高 亮 显 示 ， 
还 具有 典型 的 文本 /代码 编辑 功能 。 























1 通过 推荐 链接 注册 的 新 用 户 可 以 得 到 Digital Ocean 的 10 美元 信用 额度。 一 一 原 注 
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在 Droplet 上 安装 Jupyter Notebook 之 后 ， 你 可 以 通过 浏览 器 进行 Python 开发 和 部 署 ， 
而 不 需要 通过 安全 外 过 (SSH) 访问 、 登 录 云 实例 。 
要 实现 本 节 的 目标 ， 需 要 几 个 文件 。 
MA ER ERA 

这 个 脚本 协调 所 有 必要 步 又， 例如 将 其 他 文件 复制 到 Droplet 中 ， 并 在 其 上 运行 。 
Python F Jupyter RPA 


这 个 脚本 用 于 安装 Python 、 附 加 软件 包 和 Jupyter Notebook, 3/424 Jupyter Notebook 
服务 器 。 


Jupyter Notebook ez X H 

这 个 文件 用 于 配置 Jupyter Notebook 服务 器 ， 例 如 有 关 密 码 保护 的 细节 。 
RSA BASRA 

这 两 个 文件 是 Jupyter Notebook 服务 器 SSL 加 密 时 所 需 的 。 
下 面 的 小 节 以 相反 的 次 序 来 处 理 上 述 文件 。 


2.4.1 RSA 公 钥 和 私 钥 

为 了 通过 任意 浏览 器 建立 与 Jupyter Notebook 服务 器 的 安全 连接 ， 我 们 需要 一 个 包含 
RSA 公 钥 和 私 钥 的 SSL 证 书 。 一 般 来 说 , 这 样 的 证 书 来 自 所 谓 的 证 书 颁 发 机 构 ( CA )。 
但 是 , 在 本 书 中 ,自生 成 的 证 书 就 “足够 好 ”了 。 ER RSA 密 钥 对 的 流行 工具 之 一 是 
OpenSSL。 下 面 简短 的 交互 会 话说 明 如 何 生成 用 于 Jupyter Notebook 服务 右 的 证 书 (在 
提示 符 后 面 插入 你 自己 的 国家 名 称 和 其 他 字段 ): 


~/cloud$ openssl req -x509 -nodes -days 365 -newkey \ 


















































> rsa:1024 -out cert.pem -keyout cert.key 
Generating a 1024 bit RSA private key 

。. 十 十 十 十 十 十 
Se 十 十 十 十 十 十 





writing new private key to 'cert.key' 


系统 将 要 求 你 输入 加 进 证 书 请 求 中 的 信息 。 你 将 输入 所 谓 的 可 识别 名 称 ( DN )。 需 要 
输入 的 字段 有 多 个 ， 但 你 可 以 将 某 些 留 空 ， 其 他 一 些 则 用 默认 值 。 如 果 输 入 “.”， 字段 


HES: 




















Country Name (2 letter code) [AU] :DE 
State or Province Name (full name) [Some-State]:Saarland 
Locality Name (eg, city) []:Voelklingen 


























1 如 果 使 用 自生 成 证 书 ， 你 可 能 需要 在 浏览 器 提示 时 添加 一 个 安全 例外 。 一 一 原 注 
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cert.key 和 cert.pem 这 两 个 文件 必须 复制 到 Droplet F, H Jupyter Notebook 配置 文件 引用 。 


Organization Name (eg, company) [Internet Widgits Pty Ltd]:TPQ GmbH 
Organizational Unit Name (eg, section) []:Python for Finance 

Common Name (e.g. server FQDN or YOUR name) []:Jupyter 

Email Address []:team@tpq.io 

~/cloud$ ls 

cert.key cert.pem 

~/cloud$ 





下 面 介绍 配置 文件 。 


2.4.2 Jupyter Notebook 配置 文件 


你 可 以 按照 Jpyter Notebook 文档 中 的 解释 来 部 署 一 个 公共 Jupyter Notebook 服务 器 。 
除了 其 他 特性 之 外 ，Jupyter Notebook 还 可 以 加 上 密码 保护 。 为 此 ，notebook .auth 
子 软件 包 提 供 了 一 个 密码 散 列 代码 生成 函数 passwd () 。 以 下 代码 生成 密码 为 jupyter 
的 散 列 代码 : 





~/cloud$ ipython 

Python 3.7.0 (default, Jun 28 2018, 13:15:42) 

Type 'copyright', 'credits' or 'license' for more information 
IPython 6.5.0 -- An enhanced Interactive Python. Type '?' for help. 


In [1]: from notebook.auth import passwd 


In [2]: passwd('jupyter') 
Out [2]: 'shal:d4d34232ac3a: 55ea0ffd78cc3299e3e5eb6ecc0d3 6be0935d424b' 





In [3] Sere 





这 个 散 列 代码 必须 放 在 例 2-3 提供 的 Jupyter Notebook 配置 文件 中 。 该 配置 文件 假定 
RSA 公 钥 文件 已 经 复制 到 Droplet 上 的 /root/.jupyter/ 文 件 夹 中 。 


例 2-3 Jupyter Notebook 配置 文 伯 








Jupyter Notebook Configuration File 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


SSL ENCRYPTION 
replace the following filenames (and files used) with your choice/files 
-NotebookApp.certfile = u'/root/.jupyter/cert.pem' 


Q Q 3 3% * % HS Re SH HK 


-NotebookApp.keyfile = u'/root/.jupyter/cert.key' 
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IP ADDRESS AND PORT 


-NotebookApp.ip = '*' 


Q* 0 % 条 


-NotebookApp.port = 8888 


# PASSWORD PROTECTION 
# here: 'jupyter' as password 
# replace the hash code with the one for your strong password 


set ip to '*' to bind on all IP addresses of the cloud instance 


it is a good idea to set a known, fixed default port for server access 


c.NotebookApp.password = 'shal:d4d34232ac3a: 55ea0ffd78cc3299e3e5e6ecc0 


d36be0935d424b' 
# NO BROWSER OPTION 
# prevent Jupyter from trying to open a browser 
c.NotebookApp.open_browser = False 


Jupyter 与 安全 性 





在 云端 部 署 Jupyter Notebook 会 引起 一 些 安全 问题 ， 因 为 这 是 一 个 通 
过 浏览 器 访问 的 完整 开发 环境 。 因 此， 最 重要 的 是 使 用 Jupyter 


Notebook 服务 器 提供 的 安全 措施 ， 例 如 密码 保护 和 SSL 加 密 。 但 这 


只 是 开始 : 建议 根据 在 云 实例 上 完成 的 工作 采取 进一步 的 安全 措施 。 


下 一 步 是 确保 将 Python 和 Jupyter Notebook 安装 在 Droplet 上 。 


2.4.3 Python 和 Jupyter Notebook 安装 脚本 


— 














装 Python 和 Jupyter Notebook 的 bash 脚本 与 2.3 节 中 通过 Docker 容 需 里 的 Miniconda 安 








的 脚本 类 似 。 但 是 ， 例 2-4 中 的 脚本 还 需要 启动 Jupyter Notebook 服务 器 


有 的 重要 部 分 和 代码 行 都 有 内 符 注 释 。 
例 2-4 安装 Python 和 运行 Jupyter Notebook 服务 器 的 bash 脚本 


#!/bin/bash 


Script to Install 

Linux System Tools, 

Basic Python Packages and 
Jupyter Notebook Server 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Me Sk Sk SR SR SR SR Sk OSE 条 


GENERAL LINUX 


> 所 
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apt-get update # updates the package index cache 

apt-get upgrade -y # updates packages 

apt-get install -y bzip2 gcc git htop screen vim wget # installs system tools 
apt-get upgrade -y bash # upgrades bash if necessary 

apt-get clean # cleans up the package index cache 


# INSTALLING MINICONDA 

wget https://repo.continuum.io/miniconda/Miniconda3-latest—Linux—x86_ 
64.sh -0 \ Miniconda.sh 

bash Miniconda.sh -b # installs Miniconda 

rm Miniconda.sh # removes the installer 

# prepends the new path for current session 

export PATH="/root/miniconda3/bin:$PATH" 

# prepends the new path in the shell configuration 

echo ". /root/miniconda3/etc/profile.d/conda.sh" >> ~/.bashrc 


echo "conda activate" >> ~/.bashre 


# INSTALLING PYTHON LIBRARIES 

# More packages can/must be added 

# depending on the use case. 

conda update -y conda # updates conda if required 


conda create -y -n py4fi python=3.7 # creates an environment 


source activate py4fi # activates the new environment 

conda install -y jupyter # interactive data analytics in the browser 
conda install -y pytables # wrapper for HDF5 binary storage 

conda install -y pandas # data analysis package 

conda install -y matplotlib # standard plotting library 

conda install -y scikit-learn # machine learning library 

conda install -y openpyxl # library for Excel interaction 

conda install -y pyyaml # library to manage YAML files 











pip install --upgrade pip # upgrades the package manager 
pip install cufflinks # combining plotly with pandas 


# COPYING FILES AND CREATING DIRECTORIES 

mkdir /root/.jupyter 

mv /root/jupyter_notebook_config.py /root/.jupyter/ 
mv /root/cert.* /root/.jupyter 

mkdir /root/notebook 

cd /root/notebook 


# STARTING JUPYTER NOTEBOOK 


jupyter notebook --allow-root 
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# STARTING JUPYTER NOTEBOOK 
# as background process: 
# jupyter notebook —-allow-root & 


这 个 脚本 必须 复制 到 Droplet， 并 由 下 一 小节 介绍 的 编 配 脚本 局 动 。 


2.4.4 协调 Droplet 设置 的 脚本 

设置 Droplet 的 第 二 个 bash 脚本 最 短 〈 例 2-5 )。 它 主要 的 作用 是 将 所 有 其 他 文件 复制 
到 Droplet 中 ，Droplet 的 IP 地 址 是 脚本 的 一 个 参数 。 脚 本 的 最 后 一 行 用 于 启动 install.sh 
脚本 ， 后 者 安装 完成 后 启动 Jupyter Notebook 服务 器 。 


例 2-5 设置 Droplet 的 bash 脚本 









































#!/bin/bash 


Setting up a DigitalOcean Droplet 
with Basic Python Stack 
and Jupyter Notebook 


Python for Finance, 2nd ed. 
(c) Dr Yves J Hilpisch 


Se Sk Sk SR SR SR SR SK 


# IP ADDRESS FROM PARAMETER 
MASTER_IP=S1 


# COPYING THE FILES 
scp install.sh root@${MASTER_IP}: 
scp cert.* jupyter_notebook_config.py root@${MASTER_IP}: 





# EXECUTING THE INSTALLATION SCRIPT 
ssh root@${MASTER_IP} bash /root/install.sh 

















现在 ,设置 代码 的 所 有 条 件 都 已 经 具备 。 在 DigitalOcean 上 , 用 如 下 选项 创建 一 个 新 的 Droplet。 
PRUE RB 
Ubuntu 18.10 x64 ( 本 书写 作 时 最 新 的 版 本 ) 。 
Kas 
1 个 内 核 、1GB 内 存 、25GB SSD ( 最 小 的 Droplet ) 。 
BLE PS) (EH 
法 兰 克 福 〈 因为 作者 住 在 德国 ) 。 
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SSH #4 
添加 一 个 (新) SSH 密 钥 ， 用 于 无 密码 登录 。 
Droplet 47% 
你 可 以 使 用 预先 指定 的 名 称 ， 或 者 选择 py4fi 等 名 称 。 


单 击 Create ( 创建 ) 按钮 启动 Droplet 创建 过 程 ， 该 过 程 通常 需要 花费 一 分 钟 。 设 置 过 
程 的 主要 结果 是 一 个 卫 地 址 ， 如 果 你 选择 法 兰 克 福 作为 数据 中 心 位 置 ， 这 个 地 址 可 能 
是 46.101.156.199。 现 在 ， 设 置 Droplet 只 需要 以 下 简单 命令 : 















































(py3) ~/cloud$ bash setup.sh 46.101.156.199 
后 续 的 过 程 可 能 需要 几 分 钟 。 结 束 时 ，Jupyter Notebook 服务 器 将 显示 以 下 信息 : 


The Jupyter Notebook is running at: https://[all ip addresses on your 
system] :8888/ 





在 任何 现代 浏览 右 中 , 访问 以 下 地 址 都 可 以 访问 运行 中 的 Jupyter Notebook 服务 器 QE 
意 https 协议 ): 

https://46.101.156.199:8888 

服务 器 可 能 要 求 你 添加 一 个 安全 例外 ， 添 加 后 应 该 会 出 现 Jupyter Notebook 登录 屏幕， 
提示 输入 密码 (我们 的 例子 中 是 jupyter )。 现 在 ， 你 已 经 做 好 准备 ， 在 浏览 器 中 通过 
Jupyter Notebook、 通 过 终端 窗口 中 的 IPython 或 者 文本 文件 编辑 器 开始 Python 开发 。 
其 他 文件 管理 功能 (如 文件 上 传 、 删 除 和 文件 夹 创建 ) 也 已 经 具备 。 





























云 的 好 处 

DigitalOcean 等 公司 提供 的 云 实 例 和 Jupyter Notebook 组合 起 来 很 强大 ， 
使 Python 开发 人 员 和 “ 宽 客 ” 可 以 使 用 专业 的 计算 和 存储 基础 设施 。 
专业 的 云 和 数据 中 心 提供 商 确保 你 的 (虚拟 ) 机 器 的 物理 安全 和 高 可 
用 性 。 使 用 云 实例 还 可 以 将 研究 和 开发 阶段 的 成 本 保持 在 较 低 的 水 平 ， 
因为 收费 通常 按照 使 用 的 小 时 数 计算 ， 不 需要 签订 长 期 的 协议 。 





2.5 ”结语 


Python 是 本 书 选用 的 编程 语言 和 技术 平台 ,并 且 它 被 几乎 所 有 领先 的 金融 机 构 采 用 。 
不 过 ，Python 开发 可 能 很 难 ， 有 时 候 甚 至 是 乏味 且 令 人 头疼 的 。 幸 运 的 是 ， 近 年 来 已 



















































































1 如 果 需 要 帮助 , 访问 “How to Add SSH Keys to Droplets” 或 者 “How to Create SSH Keys with PuTTY 
on Windows” 网 页 。 原 注 
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经 出 现 了 许多 协助 解决 部 署 问题 的 技术 。 开 源 项 目 conda 可 以 帮助 管理 Python 软件 包 
和 虚拟 环境 。Docker 容器 更 进一步 ， 可 以 轻松 地 在 技术 上 隔离 的 “ 沙 箱 ”( 容器 ) 中 创 
建 完整 的 文件 系统 和 运行 时 环境 。DigitalOcean 等 云 提供 商 更 能 在 几 分 钟 之 内 ， 提 供 专 
业 管 理 的 安全 数据 中 心 内 的 计算 及 存储 能 力 ， 按 照 小 时 收费 。 这 些 技术 与 Python 3.7 
安装 和 安全 的 Jupyter Notebook 服务 器 安装 相 结合 ， 为 Python 金融 项 目的 开发 和 部 署 
提供 了 专业 化 的 环境 。 























2.6 ”延伸 阅读 

Python 软件 包 管 理 可 以 参考 如 下 资源 : 
。 pip BEHIEN; 

。 conda GEHA EJ; 

e ”Python 安装 软件 包 页 面 。 

虚拟 环境 管理 可 以 参考 如 下 资源 : 

。 virtualenv 环境 管理 器 页 面 ; 

e conda 环境 管理 页 面 ; 

。 ”pipenv 包 与 环境 管理 带 。 

下 面 的 资源 提供 关于 Docker 容器 的 信息 : 
e Docker 主页 ; 











e Matthias, Karl, and Sean Kane (2015). Docker: Up and Running. Sebastopol, CA: 
O’ Reilly, 


bash 脚本 语言 的 简介 与 概述 参见 : 
e Robbins, Arnold (2016). Bash Pocket Reference. Sebastopol, CA: O’Reilly. 


Jupyter Notebook 文档 解释 了 安全 运行 公共 Jupyter Notebook 服务 器 的 方法 。JupyterHub 
是 管理 Jupyter Notebook 服务 器 的 多 个 用 户 的 一 个 中 心 。 

通过 推荐 人 的 链接 注册 DigitalOcean， 并 在 新 账户 中 得 到 10 美元 的 起 始 余额 。 这 可 以 
支付 最 小 Droplet 两 个 月 的 使 用 费 。 
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第 2 部 分 


WUUUUU 








本 书 的 这 一 部 分 关注 Python 编程 基础 ， 所 介绍 的 主题 是 后 续 部 分 和 使 用 Python 的 根本 。 
该 部 分 的 各 章 按照 特定 主题 组 织 ， 读 者 可 通过 这 些 主题 查找 与 感 兴趣 主题 相关 的 示例 





。 第 3 章 专注 于 Python 数据 类 型 和 结构 ; 

。 第 4 章 介 绍 NumPy 及 其 ndarray 类 的 相关 知识 ; 

。 第 5 章 介 绍 pandas 及 其 DataFrame 类 的 相关 知识 ; 
。 第 6 章 讨 论 Python 面向 对 象 编程 (OOP )。 


ete 站 wo 


B33 





WUUUUUU 


拙劣 的 程序 员 担 心 代码 。 好 的 程序 员 担 心 数 据 结构 及 它们 的 关系 。 
一 一 林 纳 斯 托 瓦 效 


本 章 介 绍 Python 的 基本 数据 类 型 和 数据 结构 ， 它 们 按照 如 下 方式 组 织 。 


BRKKUER A! 


3.1 节 介 绍 整数 、 


BAKKE AT 


3.2 IŽ Python 的 基本 数据 结构 ( 例如 List 对 象 ) 3 
范 型 以 及 匿名 函数 。 



































阐述 控制 结构 、 函 数 式 编程 




















本 章 的 主旨 是 提供 Python 数据 类 型 和 结构 细节 的 一 般 介 绍 。 如 果 你 有 其 他 编程 语言 ( 如 


C 或 者 Matlab ) 的 




















， 应 该 能 够 轻松 地 掌握 Python 使 用 方法 带 来 的 差异 。 本 章 介绍 
的 主题 是 后 给 这 音节 的 重要 基础 ， 涵盖 了 以 下 数据 类 型 与 结构 。 



































对 象 类 型 含义 用 途 
int 整数 值 自然 数 
float 浮 点 数 实数 
bool 布尔 值 “ 真 ”或 “ 假 ” 
str 字符 串 对 象 字符 、 单 词 、 文 本 
tuple 不 可 变 容器 固定 对 象 集 、 记 录 
list 可 变 容器 变化 的 对 象 集 
dict 可 变 容器 键 - 值 存储 
set 可 变 容器 独特 对 象 集 
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3.1 基本 数据 类 型 


Python 是 一 种 动态 类 型 的 语言 , 这 意味 着 , Python 解释 程序 在 运行 时 推断 对 象 的 类 型 。 
C 等 编译 语言 通常 是 静态 类 型 语言 ， 在 这 类 语言 中 ， 对 象 类 型 必须 在 编译 之 前 与 对 


KYB GE 。 
3.1.1 整数 


最 基本 的 数据 类 型 是 整数 int: 
In [1]: a = 10 


type (a) 
Out[1]: int 


内 建 函 数 type 为 所 有 使 用 标准 和 内 建 类 型 的 对 象 、 新 创建 的 类 及 对 象 提供 类 型 信息 。 
在 后 一 种 情况 下 , 提供 的 信息 取决 于 程序 员 存储 在 类 中 的 描述 。 有 一 种 说 法 :“ 在 Python 
中 ， 一 切 都 是 对 象 。” 这 意味 着 ， 即 使 我 们 刚刚 定义 的 简单 对 象 int 也 有 内 建 方 法 。 例 
如 ， 你 可 以 调用 bit_length 方法 ， 获 得 表现 整数 对 象 所 需 的 位 数 : 

In [2]: a.bit_length () 

Out [2]: 4 


你 将 会 看 到 ， 我 们 为 该 对 象 所 赋 的 整数 值 越 大 ， 需 要 的 位 数 就 越 多 : 


In [3]: a = 100000 
a.bit_length () 
Out [3]. 27 


一 般 来 说 ， 这 类 方法 很 多 ， 很 难 记 住 所 有 类 和 对 象 的 所 有 方法 。 高 级 Python 环境 (如 
IPython ) 提供 Tab 键 完 成 功能 ， 以 显示 对 象 连接 的 所 有 方法 。 你 只 需要 输入 对 象 名 和 
一 个 点 (如 a. ) 然后 按 下 Tab 键 ， 就 会 提供 一 组 可 以 在 该 对 象 上 调用 的 方法 。 也 可 以 
使 用 Python PYRE PRC dir 显示 任何 对 象 属性 和 方法 的 完整 列表 。 


Python 的 特殊 性 之 一 是 整数 可 以 任意 大 。 例 如 ， 考 虑 天 文 数字 10, Python 人 处理 这 样 
大 的 数 毫 无 问题 ， 这 从 技术 上 说 是 一 个 很 “长 ”的 对 象 ; 


In [4]: googol = 10 ** 100 
googol 

Out [4]: 1000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000 









































































































































1 Cython 库 为 Python 引入 了 可 与 C 相 比 的 静态 类 型 和 编译 特性 。 实际 上 , Cython 是 结合 Python Fil C 
的 完备 “混血 ”编程 语言 。 一 一 原 注 
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In [5]: googol.bit_length () 
Out [5]: 333 


大 整数 
Python 整数 可 以 为 任意 大 。 解 释 程 序 简单 地 使 用 所 需 的 位 / 字 节 数 就 
可 表现 数值 。 





整数 的 算术 运算 也 很 容易 实现 : 


In [6]: 1 + 4 
OQuti[6 Jie 5 


In [7]: 1 / 4 
Out. ET] 30:25 


H 
5 
OO 


: type(1 / 4) 
Out [8]: float 








3.1.2 FAH 
为 了 让 上 一 个 表达 式 返 回 所 需 的 值 一 一 0.25 ,我们 必须 在 浮 点 ( float ) 对 象 上 操作 ， 
这 很 自然 地 把 我 们 带 到 下 一 种 基本 数据 类 型 。 在 整数 值 上 加 一 个 点 比如 1. 或 者 1.0， 
会 导致 Python 将 该 对 象 解释 为 浮 点 数 。 涉 及 浮 点 数 的 表达 式 通常 也 必须 返回 一 个 浮 点 
对 象 : 

In [9]: 1.6 / 4 

Out [9]: 0.4 


In [10]: type (1.6 / 4) 
Out[10]: float 


浮 点 数 与 通常 不 精确 的 实数 计算 机 表现 形式 关系 更 大 ， 取 决 于 所 采用 的 具体 技术 方法 。 

为 了 说 明 其 中 的 含义 , 我 们 定义 另 一 个 浮 点 对 象 b, 这 种 浮 点 对 象 在 内 部 总 是 只 表现 为 

某 种 精度 。 将 b 加 上 0.1 时 ， 这 一 点 变 得 很 明显 ; 
In [11]: b = 0.35 


type (b) 
Out [11]: float 


























In [12]: b + 0.1 
Out [12]: 0.44999999999999996 





1 与 版 本 中 默认 采用 向 下 取 整 除法 的 Python 2.x 不 同 , Python 3.x 中 向 下 取 整 除法 用 3/4 的 形式 实现 ， 

结果 为 0。 一 一 原 注 
2 这 里 和 后 面 的 讨论 中 , 浮 点 数 、 浮 点 对 象 等 经 常 互 换 使 用 ,每 个 浮 点 数 都 是 对 象 。 对 于 其 他 对 象 类 
型 也 是 如 此 。 一 一 原 注 
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出 现 以 上 结果 的 原因 是 浮 点 数 在 计算 机 内 部 以 二 进 制 形式 表示 ; EL, THERE n 
(0<n<1 ) 表现 为 如 下 形式 ，n = 了 + 了 ++… 对 于 某 些 浮 点 数 ， 二 进 制 表现 形式 可 能 

含 大 量 元 素 甚 至 是 一 个 无 限 系列 。 但 是 ， 考 虑 到 用 于 表达 这 种 数值 的 位 数 是 固定 的 
一 也 就 是 表现 系列 中 的 项 目 固定 ， 因 此 结果 是 不 精确 的 。 其 他 数值 可 以 完整 表现 ， 
因此 在 可 用 位 数 有 限时 也 可 以 精确 地 被 存储 。 考 虑 如 下 例子 ; 


In [13]: c = 0.5 
c.as_integer_ratio() 
Out[13]: (1, 2) 


0.5 可 以 精确 保存 ， 因 为 它 具备 精确 ( 有限 ) 的 二 进 制 表示 : 0.5=1/2. (AE, b=0.35 和 
预期 的 实数 0.35=7/20 不 同 : 


In [14]: b.as_integer_ratio() 
Out[14]: (3152519739159347, 9007199254740992) 


精度 取决 于 表示 数值 所 用 的 位 数 。 一 般 来 说 ，Python 运行 的 所 有 平台 使 用 IEEE 754 双 
精度 标准 (64 位 ) 作为 内 部 表示 ， 这 相当 于 15 位 数字 的 相对 精度 。 

由 于 这 个 主题 在 金融 应 用 领域 中 很 重要 ， 所 以 有 时 候 必须 确保 数值 的 精确 ( 至少 尽 可 
能 达到 最 佳 )。 例 如 ， 在 加 总 一 组 数量 很 多 的 数值 时 ， 这 个 问题 就 可 能 很 重要 。 在 这 种 
情况 下 ， 某 个 种 类 或 者 幅度 的 表示 误差 可 能 汇聚 起 来 ， 从 而 造成 和 基准 值 的 显著 偏差 。 
decimal 模块 为 浮 点 数 提供 了 任意 精确 度 的 对 象 ， 以 及 使 用 这 些 数值 时 处 理 精度 问题 的 
多 个 选项 : 


In [15]: import decimal 




































































from decimal import Decimal 


In [16]: decimal.getcontext () 
Out [16]: Context (prec=28, rounding=ROUND_HALF_EVEN, Emin=-999999, 
Emax=999999, capitals=1, clamp=0, flags=[], traps= 




















[InvalidOperation, DivisionByZero, Overflow] ) 


In [17]: d = Decimal(1) / Decimal (11) 
d 
Out[17]: Decimal ('0.09090909090909090909090909091") 


你 可 以 改变 Context 对 象 的 各 个 属性 值 ， 从 而 改变 表示 的 精度 : 


In [18]: decimal.getcontext().prec = 40 











In [19]: e = Decimal(1) / Decimal (11) 
e 
Out [19]: Decimal ('0.09091"') 
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In [20]: decimal.getcontext().prec = 500 


In [21]: f = Decimal(1) / Decimal (11) 
f 
Out[21]: Decimal ('0.090909090909090909090909090909090909090909090909091') 


@ 精度 低 于 默认 值 。 
@ 精度 高 于 默认 值 。 


如 果 有 必要 ， 精 度 可 以 这 样 按照 具体 的 问题 进行 调整 ， 人 们 可 以 使 用 不 同 精度 的 浮 点 
对 象 进行 运算 : 


In [22]: g=dtet+tf 











g 
Out [22]: Decimal ('0.27272818181818181818181818181909090909090909090909") 
任意 精度 浮 点 数 


decimal 模块 可 提供 任意 精度 浮 点 数 对 象 。 在 金融 领域 中 ， 确 保 高 精 
度 、 超 出 64 位 双 精 度 标准 有 了 时 是 必要 的 。 





3.1.3 布尔 值 


在 编程 中 ， 比 较 或 者 逻辑 表达 式 (如 4 > 3, 4.5 <= 3.25 或 (4 > 3) and (3 > 2) ) 得 到 的 输 
出 为 True 或 者 False， 这 是 两 个 重要 的 Python 关键 字 。 其 他 重要 的 关键 字 有 def、 
for 和 if 等 。Python 的 关键 字 列 表 可 以 在 keyword 模块 中 找到 : 


In [23]: import keyword 





In [24]: keyword.kwlist 

Out[24]: ['False', 
'None', 
"Truet, 
'and', 
'as', 
'assert', 
'async', 
'await', 
'break', 
'class', 
'continue', 
'def', 
'del', 
‘elif', 
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‘else', 
‘except’, 
'finally', 
MEO y 
TELOM” 
'global', 
e E 
'import', 
eis om 
List) 
‘lambda', 
"nonlocal', 
‘not', 


tort; 


'try', 
'while', 
'with', 
'yield'] 





True fil False 的 数据 类 型 为 bpool， 表 示 “ 布 尔 值 ”( Boolean Value ). 将 Python 的 
比较 运算 符 应 用 到 相同 操作 数 时 结果 为 布尔 对 象 : 


In [25]: 4 > 30 
Out [25]: True 




















In [26]: type(4 > 3) 
Out [26]: bool 


[In [27]: type (False) 
Out [27]: bool 


In [28]: 4 >= 3@ 


Out [28]: True 


In [29]: 4 < 38 
Out [29]: False 


In [30]: 4 <= 30 
Out [30]: False 








In [31]: 4 == 380 
Out [31]: False 
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In [32]: 
Out [32]: 


0 KF. 


4 != 30 
True 


@ 大 于 或 等 于 。 


© 小 于 。 


@ 小 于 或 等 于 。 


© 等 于 。 


@ 不 等 于 。 





逻辑 运算 往往 应 用 到 布尔 对 象 上 ， 然 后 得 出 另 一 个 布尔 对 象 : 





im [33 
Out [33 


In [34 
Out [34 


In [35 
Out [35 


In [36 
Out [36 


in EST 
Out [37 


In [38 
Out [38 


In [39 
Out [39 


In [40 
Out [40 





当然 ， 两 类 运算 符 往往 组 合 使 用 : 


In [41]: 
Out [41]: 


In [42]: 





True and True 
True 


True and False 
False 


False and False 
False 


True or True 


True 


True or False 
True 


False or False 
False 


not True 
False 


not False 
True 








(4 > 3) and (2 > 3) 
False 


(4 == 3) or (2 != 3) 
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Out [42]: True 





In [43 not (4 != 4) 
Out [43 True 
In [44]: (not (4 != 4)) and (2 == 3) 














Out [44]: False 











布尔 值 的 重要 应 用 领域 之 一 是 通过 其 他 Python 关键 字 (如 if while, 本 章 后 面 将 有 


更 多 示例 ) 控制 代码 流程 : 


In [45]: if 4 > 3: © 
print ("condition true') @ 
condition true 
In [46]: i=0 9 
while i < 4: @ 
print ('condition true, i= ', i) © 
i += 1 9 
condition true, 
condition true, 
condition true, 


ll 
WN FO 


condition true, i 
@ 如 果 条 件 为 真 ， 执 行 以 下 代码 。 
@ 如 果 条 件 为 真 ， 执 行 这 段 代 码 。 
© 将 参数 i 初始 化 为 0。 

只 要 条 件 为 0， 就 执行 并 重复 以 下 代码 。 
O 打印 文本 和 参数 i 的 值 。 
@ 将 参数 增加 1; i +s 1 与 i = i + 1 等 价 。 




















从 数值 上 讲 ，Python X False 赋值 0， 为 True 赋值 1。 当 通过 boo1 () 函数 将 数值 转 


HUR bool 对 象 时 ，0 值 转换 成 False， 其 他 所 有 值 都 转换 为 True: 











In [47]: int (True) 
Out [47]: 1 

In [48]: int (False) 
Out [48]: 0 

In [49]: float (True) 
Out [49 1.0 

In [50]: float (False) 
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Out [50]: 0.0 


In [51]: bool(0) 
Out[51]: False 


In [52]: bool(0.0) 
Out [52]: False 


In [53]: bool(1) 
Out [53]: True 


In [54]: bool(10.5) 
Out [54]: True 








In [55]: bool (-2) 
Out [55]: True 











3.1.4 字符 串 
既然 我 们 已 经 可 以 表示 自然 和 浮 点 数 ， 现 在 就 可 以 转向 文本 了 。Python 中 表示 文本 的 
基本 数据 类 型 是 字符 串 一 一 str， 字 符 串 对 象 有 一 些 真 正 实用 的 内 建 方法 。 实 际 上 ， 
Python 通常 被 视 为 处 理 任何 类 型 、 任 何 尺 十 文本 文件 的 很 好 选择 。 字 符 串 对 象 通常 由 
单 引 号 或 者 双 引 号 定义 或 者 使 用 stz O 函数 转换 而 来 (也 就 是 使 用 对 象 的 标准 或 者 用 
户 定 义 的 字符 串 表 示 ): 

In [56]: t = 'this is a string object' 
举 个 内 建 方法 的 例子 ， 你 可 以 将 对 象 中 的 第 一 个 词 改 为 首 字母 大 写 : 


In [57]: t.capitalize() 
Out[57]: 'This is a string object’ 


也 可 以 将 字符 串 拆 分 成 单个 词 ， 以 获得 包含 所 有 单词 的 列表 对 象 ; 
In [58]: t.split() 
Out [58]: ['this', TiS"; 'a', 'string', 'object'] 
你 还 可 以 搜索 一 个 单词 ， 如 果 搜 索 成 功 ， 就 可 以 得 到 该 词 第 一 个 字母 的 位 置 ( 即 索引 值 ): 


In [59]: t.find('string') 
Out [59]: 10 


如 果 这 个 单词 不 在 字符 串 对 象 中 ， 该 方法 返回 -1: 


In [60]: t.find('Python') 
Out [60]: -1 





















































3.1 基本 数据 类 


oe 
ig 


65 





替换 字符 串 中 的 字符 是 典型 的 任务 ， 可 以 用 replace () 方 法 简单 地 完成 : 


In [61]: 


Out [61]: 





SFT “RIBS” (stripping ) 操作 


In [62]: 
Out [62]: 


表 3-1 列 出 了 字符 


t.replace(' ', 


HEY 
'this|isļ|a|string|object' 





删除 菜 些 前 导 或 者 后 级 字符 也 是 必要 的 : 





'http://www.python.org'.strip('htp:/') 


'www.python.org' 


串 对 象 的 一 些 实用 方法 。 








































































































3-1 精 选 字符 串 方 法 

方 ” 法 2 H 返回 /结果 
capitalize | () 复制 字符 串 ， 将 第 一 个 字符 改 成 大 写 
count sub[, start[, end]]) 计算 子 字 符 串 出 现 的 次 数 
PERT a j i encoding 指定 的 编码 方式 (例如 UTE-8 ) 

坚 码 字符 串 
encode ([encoding[, errors]]) | 字符 串 编码 形式 
find (sub[, start[, end]]) 找到 的 子 字 符 串 〈 最低 ) 索引 
join (seq) 连接 se 序列 中 的 字符 串 
replace (old, new[, count]) 用 new 替换 前 count 个 old 
split ([sep[, maxsplit]]) 字符 串 中 的 单词 列表 ,以 sep 作为 分 隔 符 
= 如 果 keepends 为 真 ， 返 回 以 行 结束 符 / 

splitlines | ([keepends]) 换行 符 分 隔 的 行 
strip (chars) 从 字符 串 首 / 尾 删除 chars 中 的 字符 
upper () 复制 字符 串 ， 所 有 字母 改 为 大 写 











Unicode 字符 串 
Python 2.7 (本 书 第 1 版 使 用 ) 


到 Python 3.7 (本 书 第 2 版 使 用 ) 的 根 


本 变化 之 一 是 字符 串 对 象 的 编码 与 解码 方法 ， 以 及 Unicode 的 引入 。 


本 章 不 介绍 这 方面 的 细节 ; 本 


书 主要 处 理 数值 数据 和 包含 英语 单词 的 


标准 字符 串 ， 这 种 忽略 似乎 是 合理 的 。 


3.1.5 WMA: 打印 和 字符 串 替换 


打印 字符 串 对 象 或 者 其 他 Python 对 象 的 字符 上 


In [63]: 








print ('Python for Finance') 


BZR, ì 
o 
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In [64]: 


In [65]: 


In [66]: 


Python for Finance 


print(t) @ 
this is a string object 


i=0 

while i < 4: 
print (i) © 
i += 1 

0 

1 

2 

8 

i=0 

while i < 4: 
print (i, end='|') © 
i += 1 

0|1|2|3| 


@ 打印 一 个 str 对 象 。 

@ 打印 变量 名 引用 的 字符 串 对 象 。 

© 打印 整数 对 象 的 字符 串 表 示 。 

O 指定 打印 的 结束 符 ， 默 认为 前 面 见 到 的 换行 符 (\n )。 

Python 提供 了 强大 的 字符 串 替 换 运 算 。 我 们 可 以 采用 旧 方 法 即 通过 % 字 符 来 实现 ， 也 可 以 





RA 








有 通过 花 括 号 ({} ) 和 format () RAADI EKI. BITES Pa. AST 
无 法 提供 所 有 选项 的 说 明 ， 但 以 下 代码 片段 可 以 展示 一 些 重要 的 选项 。 首 先是 旧 方法 : 


In 
Out 








67] 
6:7]; 


68]: 
68]: 


69]: 
69]: 


70]: 
70]: 


7L 1% 
+i] 


T2]: 








15 0 


sd' % 


is 


"this is an integer 


"this is an integer 


‘this is integer %4d' % 





"this is 


"this 
"this 


is 


is 


"this 
"this 


is 


is 


"this 
"this 


"this is 


isa 


isa 


in 


in 


in 





toat 


Loat 


toart 


teger 


teger 





teger 





sf! 
t 15. 


S.2f' % 
GD. 


S8f' % 


oe 


s04d' % 
0015' 


% 15.3456 © 
345600' 


15.3456 © 
3” 


15.3456 @ 
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© © © © 8 8 © 8 © 


























Out[72]: 'this is a float 15.345600' 

In [73]: 'this is a float %8.2f' % 15.3456 @ 
Out[73]: 'this is a float 154357 

In [74]: 'this is a float %08.2f' % 15.3456 © 
Out[74]: "this is a float 00015.35' 

In [75]: 'this is a string %s' % 'Python' © 
Out [75]: 'this is a string Python!’ 

In [76]: 'this is a string %10s' % 'Python' © 
Out [76]: 'this is a string Python' 
整数 对 象 蔡 换 。 

固定 数量 的 字符 
必要 时 加 上 前 导 0。 

浮 点 数 对 象 蔡 换 。 

固定 小 数位 数 。 


固定 数量 字符 ( 以 及 填充 的 小 数位 数 )。 
固定 数量 字符 和 小 数位 数 等 。 














必要 时 加 上 前 导 0。 

FAS ERR 

固定 字符 数 。 

面 是 同样 的 例子 ， 但 用 新 方法 实现 。 注 意 某 些 位 置 输出 的 细微 差别 : 
In [77]: 'this is an integer {:d}'.format (15) 

Out [77]: 'this is an integer 15' 

In [78]: 'this is an integer {:4d}'.format (15) 
Out[78]: 'this is an integer 15' 

In [79]: 'this is an integer {:04d}'.format (15) 
Out[79]: 'this is an integer 0015' 

In [80]: 'this is a float {:f}'.format (15.3456) 
Out [80]: 'this is a float 15.345600' 

In [81]: 'this is a float {:.2f£}'.format (15.3456) 
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Out[81]: 'this is a float 15.35" 

In [82]: 'this is a float {:8f}'.format (15.3456) 
Out [82]: 'this is a float 15.345600' 

In [83]: 'this is a float {:8.2f}'.format (15.3456) 
Out [83]: 'this is a float 15.35' 

In [84]: 'this is a float {:08.2f}'.format (15.3456) 
Out [84]: 'this is a float 00015.35' 

In [85]: 'this is a string {:s}'.format ('Python') 
Out [85]: 'this is a string Python' 

In [86]: 'this is a string {:10s}'.format('Python') 
Out [86]: 'this is a string Python ' 


字符 串 蔡 换 在 多 次 打印 更 新 的 数据 时 特别 有 用 ， 例 如 在 while 循环 中 : 


In [87]: i = 0 
while i < 4: 





print ('the number is %d' % i) 

i += 1 
the number is 
the number is 
the number is 


WN FO 


the number is 
In [88]: i = 0 

while i < 4: 
print ('the number is {:d}'.format (i) ) 
i += 1 

the number is 

the number is 

the number is 


WN FO 


the number is 


3.1.6 题 外 话 : 正则 表达 式 
正则 表达 式 是 处 理 字符 串 对 象 的 一 个 强大 工具 。Python 在 re 模块 中 提供 了 这 个 功能 : 
In [89]: import re 


假定 你 现在 面 对 一 个 大 的 文本 文件 ， 例 如 逗号 分 隔 值 (CSV ) 文件 ， 其 中 包含 了 某 些 习 
件 序列 和 相应 的 日 期 -时 间 信 息 。 日 期 -时 间 信 息 多 半 以 Python 无 法 直接 解释 的 格式 提供 。 
然而 ， 日 期 -时 间 信息 通常 可 以 通过 正则 表达 式 描述 。 考 虑 如 下 的 字符 串 对 象 ， 它 包含 3 


‘i 
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个 日 期 -时 间 元 素 、3 个 整数 和 3 个 字符 串 。 注 意 ，3 个 引号 可 以 定义 多 行 字 符 串 : 
In [90]: series = """ 
"01/18/2014 13:00:00', 100, 'lst'; 
"01/18/2014 13:30:00', 110, '2nd'; 
"01/18/2014 14:00:00', 120, '3rd' 


www 











下 面 的 正则 表达 式 措 述 了 上 述 字符 串 对 象 提供 的 日 期 -时 间 信息 格式 : 


In [91]: dt = re.compile("'[0-9/:\s]+'") # datetime 








使 用 上 述 正则 表达 式 ， 我 们 可 以 查找 所 有 日 期 -时 间 元 素 。 一 般 来 说 ， 对 字符 串 对 象 应 
用 正则 表达 式 还 能 带 来 典型 解析 任务 性 能 的 提升 。 
In [92]: result = dt.findall (series) 
result 
Out [92]: ["'01/18/2014 13:00:00'", "'01/18/2014 13:30:00'", "'01/18/2014 


14:00:00'"] 
正则 表达 式 
解析 字符 串 对 象 时 ， 若 考虑 使 用 正则 表达 式 ， 可 以 为 相关 操作 带 来 便 
利和 高 性 能 。 














然后 ， 可 以 对 结果 字符 串 对 象 进行 解析 ， 生 成 Python 的 日 期 时 间 (datetime ) 对 象 〈 用 
Python 处 理 日 期 和 时 间 数 据 的 概述 参见 附录 A )。 要 解析 包含 日 期 时 间 信 息 的 字符 串 对 
象 ， 我 们 必须 提供 解析 方法 的 信息 同样 是 一 个 字符 串 对 象 ; 


In [93]: from datetime import datetime 





























pydt = datetime.strptime(result[0].replace("'", ""), 
"Sm/%Sa/SY %H:3M:%S') 
pydt 
Out [93]: datetime.datetime (2014, 1, 18, 13, 0) 


In [94]: print (pydt) 
2014-01-18 13:00:00 


In [95]: print (type (pydt) ) 
<class 'datetime.datetime'> 
后 续 内 容 会 提供 关于 日 期 -时 间 数 据 、 这 些 数据 的 处 理 以 及 datetime 对 象 及 其 方法 的 更 
多 信息 。 现 在 我 们 只 是 预览 一 下 金融 中 的 这 个 重要 主题 。 

















1 本 书 不 准备 深入 细节 ， 但 是 在 互联 网 上 能 够 找到 很 多 正则 表达 式 以 及 它们 在 Python 中 特殊 应 用 的 
相关 信息 。 这 个 主题 的 简介 可 以 参见 Fitzgerald, Michael ( 2012 ): Introducing Regular Expressions, 
O’Reilly, Sebastopol, CA. 一 一 原 注 
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3.2 基本 数据 结构 
数据 结构 是 包含 其 他 对 象 ( 可 能 很 多 ) 的 对 象 。Python 提供 了 以 下 内 建 结构 。 


ALAA (tuple ) 

任意 对 象 的 集合 ; 只 有 少数 可 用 方法 。 
AK (list) 

任意 对 象 的 集合 ;有 许多 可 用 方法 。 
F # (dict) 
































键 - 值 存储 对 象 。 
BS (set ) 
其 他 独特 对 象 的 无 序 集合 对 象 。 
3.2.1 元 组 
元 组 (tuple) 是 一 种 高 级 的 数据 结构 ， 其 应 用 相当 简单 有 限 。 它 通过 圆 括号 来 提供 对 
REN: 
In [96]: t = (1, 2.5, 'data') 
type (t) 
Out [96]: tuple 
也 可 以 去 掉 括号 ， 提 供 以 逗号 分 隔 的 多 个 对 象 : 
In [97]: t = 1, 2.5, 'data' 
type (七 ) 
Out [97]: tuple 











和 Python 中 几乎 所 有 的 数据 结构 相似 ， 元 组 有 内 建 的 索引 ， 利 用 该 索引 可 以 读 取 元 组 
的 单个 或 者 多 个 元 素 。 重 要 的 是 记 住 Python 使 用 零 起 点 编号 , 元 组 的 第 3 个 元 素 在 索 
引 位 置 2 上 : 


In [98]: t[2] 
Out [98]: 'data' 








In [99]: type(t[2]) 
Out [99]: str 


零 起 点 编号 
与 MATLAB 等 其 他 编程 语言 不 同 ，Python 使 用 零 起 点 编号 方案 。 例 
如 ， 元 组 对 象 的 第 一 个 元 素 索 引 值 为 0。 
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这 种 对 象 类 型 只 有 两 个 特殊 方法 : count () 和 index () 。 第 一 个 方法 计算 某 个 对 象 的 
出 现 次 数 ， 第 二 个 方法 给 出 对 象 第 一 次 出 现 位 置 的 索引 值 : 

In [100]: t.count ('data') 

Out[100]: 1 





In [101]: t.index(1) 
Out[101]: 0 


元 组 对 象 是 不 可 变 对 象 ， 这 意味 着 一 旦 定义 ， 它 们 就 不 容易 更 改 。 


3.2.2 ”列表 


与 元 组 对 象 相 比 ， 列 表 Cist) 类 型 的 对 象 更 灵活 、 更 强大 。 从 金融 角度 看 ， 许 多 工作 
只 能 用 列表 对 象 完成 ， 例 如 存储 股票 报价 和 附加 新 数据 。 列 表 对 象 通过 方 括号 定义 ， 
其 基本 功能 和 行为 与 元 组 类 似 : 


In [102]: 


























1 = [1, 2.5, "data"] 
1[2] 
Out[102]: 'data' 


列表 对 象 也 可 以 使 用 List () 函数 定义 或 者 转换 ,下面 的 代码 通过 转换 前 一 个 例子 中 的 
元 组 对 象 来 生成 新 的 列表 对 象 : 


In [103]: 








1 = list (t) 
1 
Out[103]: [1, 2.5, 'data'] 


In [104]: type (1) 
Out [104]: list 


除了 元 组 对 象 的 特性 之 外 ， 列 表 对 象 还 可 以 通过 不 同 的 方法 来 扩展 和 缩小 。 换 名 话说 ， 


字符 串 和 元 组 对 象 是 不 可 变 序 列 对 象 ( 具有 索引 )， 一 经 创建 不 能 更 改 ， 而 列表 对 象 是 
可 变 的 , 可 以 通过 不 同 操作 更 改 。 你 可 以 在 现 有 列表 对 象 中 附加 一 个 或 者 多 个 列表 对 象 : 






























































In [105]: l.append([4, 3]) © 

Out [105]: u, 2.5, "data'y [4, 3]] 

In [106]: l.extend([1.0, 1.5, 2.0]) © 

Out [106]: 1, 2.07. datas; Ldy <3] 7 1.0% 1437-2204 

In [107]: l.insert(1, 'insert') ® 

Out [107]: tt Tinsert';. 2.5, “data, ts 37,. 1.0, L570 
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In [108]: l.remove('data') @ 
1l 
Out[108]: [1, ‘insert', 2.5, [4, 3], 1.0, 1.5, 2.0] 


In [109]: p = l.pop(3) © 
print(l, p) 
[L, “insert';, 2.5, 140,;-1.5, 2.0] [4,3] 


@ 在 尾部 附加 列表 对 象 。 

@ 附加 列表 对 象 元 素 。 

O 在 索引 位 置 之 前 插 人 对象 。 
O 删除 第 一 次 出 现 的 对 象 。 

@ 删除 并 返回 索引 位 置 的 对 象 。 


切片 操作 也 很 容易 实现 。 这 里 的 切片 (slicing ) 指 的 是 将 数据 集 分 解 为 ( 感 兴 趣 的 ) BE 
小 部 分 : 


In [110]: 1[2:5] © 
Gut TITOJ EZS; “Ls0y TaS] 


@ 返回 的 是 第 3 一 5 个 元 素 。 
表 3-2 提供 了 列表 对 象 精 选 操作 和 方法 的 简单 说 明 。 
表 3-2 精 选 的 列表 对 象 操作 和 方法 











































































































方法 参数 返回 /结果 
1l[i] =x [i] H x 替代 第 i 个 元 素 
1[i:j:k] = s | [i:j:k] vipa ph eae 
append (x) 在 对 象 后 附加 x 
count (x) WE x 的 出 现 次 数 
del 1[i:j:k] | [i:j:k] WRA i 2 3-1 的 索引 值 的 元 素 
extend (s) 将 s 的 所 有 元 素 附 加 到 对 象 
index (x[, il, jll) 元 素 i 和 j-1 之 间 第 一 个 x 的 索引 
insert (i, x)++ 在 索引 守之 前 搬入 x 
remove (i) | 除 索引 为 i 的 元 素 
pop (i) 1 除 索 引 为 i 的 元 素 并 返回 该 元 素 
reverse () 颠倒 所 有 项 目的 顺序 
sort ([cmp[, key[, reverse]]]) | 对 所 有 项 目 进行 排序 
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3.2.3 MNA: 控制 结构 


空 制 结构 ( 如 for 循环 ) 本 身 就 是 一 个 主题 ， 但 是 在 Python 中 ， 最 好 在 列表 对 象 基础 
上 理解 它 。 这 是 因为 : 循环 一 般 来 说 都 在 列表 对 象 上 进行 ， 这 与 其 他 语言 中 的 常用 标 
准 有 很 大 不 同 。 看 下 面 的 例子 ，for 循环 在 列表 对 象 1 索引 值 为 2~4 的 元 素 上 进行 ， 
功能 是 打印 各 个 元 素 的 平方 。 注 意 第 二 行 中 缩 进 (空白 ) 的 重要 性 : 
In [111]: for element in 1[2:5]: 
print (element ** 2) 

6.25 

1.0 

2525 



































典型 的 基于 计数 器 的 循环 相 比 ， 上 述 循环 提供 了 很 高 的 灵活 性 。 基 于 计数 器 的 循环 
是 Python 的 一 个 可 选项 ， 但 是 在 〈 标 准 ) 列表 对 象 range 的 基础 上 完成 的 : 

In [112]: r = range(0, 8, 1) © 

Out[112]: range(0, 8) 

















5 
也 





In [113]: 上 type (L) 
Out [113] : range 


O 参数 依次 是 起 始 值 、 结 束 值 和 步 长 。 
为 了 比较 ， 下 面 我 们 使 用 range 实现 同一 个 循环 : 


In [114]: for i in range(2, 5): 
print (l[i] ** 2) 
6.25 
1.0 
2.625 


在 列表 上 循环 
在 Python 中 ， 你 可 以 在 任意 列表 对 象 上 循环 ， 而 不 用 管 这 些 对 象 的 
内 容 是 什么 ， 这 往往 可 以 避免 引入 计数 器 。 


























Python 还 提供 了 典型 ( 条件 ) Bec if, elif 和 else。 它们 的 用 途 与 其 他 语言 的 
相同 : 


In [115]: for i in range(1, 10): 


if i % 2 = 0: © 
print ("%d is even" % i) 
elif i % 3 == 0: 


print ("%d is multiple of 3" % i) 
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else: 
print ("Sd is odd" % i) 

is odd 
is even 
is multiple of 3 
is even 
odd 
is even 
is odd 


is even 


ODN HO HWNe 
H 
u 


is multiple of 3 
© :代表 取 模 运算 。 
同样 ，while 提供 了 男 一 种 流程 控制 手段 : 


In [116]: total = 0 
while total < 100: 
total += 1 
print (total) 
100 


Python 的 特殊 性 之 一 是 所 谓 的 列表 推导 (List Comprehension )。 这 种 方法 不 在 现 有 列表 
对 象 上 循环 ， 而 是 以 紧凑 的 方式 通过 循环 生成 列表 对 象 : 


In [117]: = [i ** 2 for i in range(5)] 















































Out [117]: [0, 
在 某 种 意义 上 ， 它 已 经 提供 了 一 种 方法 ， 以 较为 隐 含 〈 而 非 显 式 ) 的 循环 生成 某 种 向 
量化 代码 段 〈 代 码 向 量化 将 在 第 4 章 和 第 5 章 中 详细 讨论 )。 


3.2.4 WINE: 范 数 式 编程 
Python 也 提供 一 些 用 于 函数 式 编程 支持 的 工具 一 一 在 一 整 组 输入 (在 我 们 的 例子 中 是 
列表 对 象 ) 上 应 用 某 个 函数 。 这 些 工具 是 过 滤 (filter), WR (map ) 和 归纳 (reduce )。 
但 是 , 我 们 首先 需要 一 个 函数 定义 。 从 简单 的 功能 出 发 ,考虑 以 下 的 函数 £, 它 返回 输 
入 x 的 平方 数 : 
In [118]: def f(x): 
return x ** 2 


£(2) 
Out [118]: 4 


当然 ， 函 数 可 能 很 复杂 ， 它 可 能 有 多 个 输入 ( 参数 对 象 ) 甚至 多 个 输出 〈 返 回 对 象 )。 
考虑 以 下 函数 : 


1, 4, 9, 16] 
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In [119]: def even(x): 

return x % 2 == 0 
even (3) 
Out [119]: False 


返回 对 象 是 一 个 布尔 值 。 这 样 的 函数 可 以 用 map O 应 用 到 整个 列表 对 象 : 


In [120]: list (map (even, range (10))) 














Out[120]: [True, False, True, False, True, False, True, False, True, False] 


为 此 ,我 们 还 可 以 使 用 lambda 或 者 匿名 函数 ， 直 接 提供 一 个 函数 定义 作为 map () 的 参数 : 











In [121]: list (map(lambda x: x ** 2, range(10) 

Out[121]: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 
PRL AY WA ae ee. FE PE A, UE aa IRR R P CE 
尔 条 件 〈 由 even 函数 定义 ) 的 元 素 : 

In [122]: list(filter(even, range(15))) 

Out[122]: [0, 2, 4, 6, 8, 10, 12, 14] 


列表 推导 、 函 数 式 编程 和 匿名 函数 

在 Python 级 别 上 尽 可 能 避免 竺 环 被 视 为 “好 的 习惯 "。 列表 推导 和 函 
数 式 编程 工具 (如 map、filter 和 reduce ) 为 编写 紧凑 (一般 来 
说 也 更 易于 理解 ) 无 循环 代码 提供 了 很 大 帮助 。lambda 或 者 匿名 函 


) ) 























数 也 是 这 方面 的 强大 工具 。 
3.25 FH 











字典 (dict) 对 象 就 是 可 以 按照 键 码 〈 例 如 ， 可 能 是 字符 串 对 象 ) 读 取 的 数据 字典 ， 也 是 一 
种 可 变 序 列 ， 是 所 谓 的 键 一 值 存储 。 列 表 对 象 是 有 序 且 可 排序 的 ， 而 字典 对 象 通常 是 无 序 、 
不 可 排序 的 。 示 例 最 能 够 说 明 字 典 和 列表 对 象 的 不 同 之 处 。 字 典 对 象 定义 用 花 括号 实现 : 


In [123]: d= { 

































































"Name' : ‘Angela Merkel', 
‘Country’ : 'Germany', 
"Profession' : 'Chancelor', 
'Age' : 64 
} 

type (d) 


Out [123]: dict 


In [124]: print(d['Name'], d['Age']) 
Angela Merkel 64 

















1 标准 字典 有 一 些 变种 ， 其 中 包括 OederedDict 子 类 ， 它 可 以 记忆 添加 字典 项 的 顺序 。 
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同样 ， 该 类 对 象 也 有 一 些 内 建 方法 : 


In [125]: d.keys () 
Out [125]: dict_keys(['Name', 'Country', 'Profes 


In [126]: d.values () 


Out [126]: dict_values(['Angela Merkel', 'Germany', 





In [127]: d.items () 
Out [127]: dict_items([('Name', 'Angela Merkel'), 
('Profession', 'Chancelor'), ('Age', 








In [128]: birthday = True 
if birthday: 
d['Age'] += 1 
print (d['Age']) 
65 


sion', 'Age']) 


('Country', 
64) ]) 


"Chancelor', 64]) 


"Germany'), 


从 字典 对 象 中 获得 迭代 器 〈Iterator ) 对 象 有 多 种 方法 。 这 种 对 象 在 循环 时 的 表现 与 列 


表 对 象 的 表现 类 似 : 


In [129]: for item in d.items(): 
print (item) 
('Name', ‘Angela Merkel') 
('Country', 'Germany') 
('Profession', 'Chancelor') 
('Age', 65) 
In [130]: for value in d.values(): 
print (type (value) ) 
<class: “str '> 
<class. Vstr'> 
<class 'str'> 
<class 'int'> 


表 3-3 提供 了 字典 对 象 上 精 选 的 操作 和 方法 的 简单 说 明 。 
表 3-3 ”字典 对 象 精 选 操作 和 方法 




















方法 参数 返回 /结果 
d[k] [k] d 中 键 码 为 的 项 目 
d[k] =x [k] 将 键 码 为 k 的 项 目 设置 为 x 
del d[k] [k] 删除 键 码 为 k 的 项 目 
clear () 删除 所 有 项 目 
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方法 参数 返回 /结果 
copy () 建立 一 个 副本 
has_key (k) 如 果 k 是 一 个 键 码 ， 为 真 
items () 所 有 键 - 值 对 的 副本 
keys () 所 有 键 码 的 迭代 器 
values () 所 有 值 的 迭代 器 
poptiem (k) 返回 并 删除 键 码 为 k 的 项 目 
update (fel) 用 来 自 e 的 项 目 更 新 字典 项 目 
3.2.6 集合 








本 节 介 绍 的 最 后 一 种 数据 结构 是 集合 ( set ) 对 象 。 虽然 集合 论 是 数学 和 金融 理论 的 基 
石 ， 但 是 集合 对 象 并 没有 太 多 实际 应 用 。 这 种 对 象 是 其 他 对 象 的 无 序 集合 ， 每 个 元 素 
只 包含 一 次 : 
In [131]: s = set(['u', 'd', 'ud', 'du', 'd', 'du']) 
S 
Out [131]: {'d', 'du', 'u', 'ud'} 


ign 




















In [132]: t = set(['d', 'dd', 'uu', 'u']) 


使 用 集合 对 象 可 以 实现 数学 集合 论 中 进行 的 运算 。 例 如 ， 可 以 生成 并 集 、 交 集 和 








WI 





bits 
i 


In [133]: s.union(t) © 
Outi [133 )cn Cady, "dd “dua, Sa, tudy Twat} 


In [134]: s.intersection(t) @ 
Out [134]: {'d', Sur} 


In [135]: s.difference(t) © 
Out[135]: {'du', rud} 


In [136]: t.difference(s) @ 
Out[136]: {'dd', ‘uu'} 





[In [137]: s.symmetric_difference(t) © 
Out [137]: {'dd', "du"; ‘ud', 'uu'} 


Os filt 的 所 有 元 素 。 
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Os 和 t+ 中 的 所 有 项 目 。 

@ 在 s 中 而 不 在 t 中 的 项 目 。 

@ 在 t 中 但 不 在 s 中 的 项 目 。 

O 在 s 或 者 t+ 中 、 但 不 同时 在 两 个 集合 中 的 项 目 。 

集合 对 象 的 应 用 之 一 是 去 掉 列 表 对 象 中 的 重复 数据 ， 例 如 : 











In [138]: from random import randint 
1 = [randint(0, 10) for i in range(1000)] © 
len(1) @ 


Out [138]: 1000 


In F139): T1220] 
Out [139]: [4, 2, 10, 2, 1, 10, 0, 6, 0, 8, 10, 9, 2, 4, 7, 8, 10, 8, 8, 2] 


In [140]: s = set(l) 
S 
Out[140]: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} 











@ 0~10 之 间 的 1000 个 随机 整数 。 
@ 1 中 的 元 素数 量 。 


3.3 ”结语 


Python 基本 解释 程序 提供 了 一 组 丰富 灵活 的 数据 结构 。 从 金融 的 角度 看 ， 下 面 这 些 类 
型 是 比较 重要 的 。 


























KRKKHLR A 
在 金融 中 ， 整 数 、 浮 点 数 、 布 尔 值 和 字符 串 提 供 了 原子 数据 类 型 。 
Tilt RHE LE FY 











元 组 、 列 表 、 字 典 和 集合 类 在 金融 中 有 许多 应 用 领域 ， 列 表 通 常 是 数值 用 例 中 灵 
活 的 多 面 手 。 





3.4 延伸 阅读 


本 章 聚 焦 于 对 金融 算法 和 应 用 特别 重要 的 数据 类 型 和 结构 。 然 而 ， 这 只 是 Python 中 数 
据 结 构 和 数据 建 模 探索 的 出 发 点 。 


有 许多 宝贵 的 资源 深入 地 探讨 了 这 些 问题 ， 详 情 可 参见 Python 数据 结构 的 官方 文档 。 
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下 面 是 一 些 好 的 参考 书 。 


e Goodrich, Michael, et al. (2013). Data Structures and Algorithms in Python. Hoboken, 
NJ: John Wiley & Sons. 


e Harrison, Matt (2017). Illustrated Guide to Python 3. CreateSpace Treading on Python 
Series. 


e Ramalho, Luciano (2016). Fluent Python. Sebastopol, CA: O’ Reilly. 
正则 表达 式 的 介绍 请 参见 。 


e Fitzgerald, Michael (2012). Introducing Regular Expressions. Sebastopol, CA: O’Reilly. 
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foram 


第 4 章 


[ NumPy [0 0 0 0U L 





计算 机 是 没有 用 的 ， 它 们 只 能 给 出 答案 。 

— BHF Lk 

尽管 Python 解释 程序 已 经 带 来 了 非常 丰富 的 数据 结构 ， 但 NumPy 和 其 他 库 自 有 的 数据 

结构 也 非常 有 价值 。 本 章 主 要 介绍 NumPy， 这 个 库 提 供 了 保存 同 构 与 异 构 数据 集合 的 
多 维 数组 对 象 ， 并 支持 代码 向 量化 。 


本 章 介 绍 以 下 数据 结构 。 
































对 象 类 型 含义 用 途 
ndrray (常规 ) n 维 数组 对 象 大 规模 数值 数据 
ndrray (记录 ) 二 维 数组 组 织 成 列 的 表格 数据 

本 章 的 组 织 如 下 。 
HERA 


本 节 介 绍 用 纯 Python 代码 处 理 数据 数组 的 方法 。 
A NumPy #24 


这 是 关于 常规 NumPy ndarray 类 的 核心 部 分 ， 在 几乎 所 有 涉及 数值 数据 的 数据 
密集 型 Python 用 例 中 ， 该 类 都 担纲 主力 。 


NumPy 4477241 

这 一 节 介 绍 结构 化 〈 或 者 记录 ) ndarray 对 象 ， 该 对 象 用 于 处 理 分 列表 格 数据 。 
KF EC 

这 一 节 讨 论 代 码 向 量化 及 其 好 处 ， 还 将 讨论 某 些 场景 下 内 存 布局 的 重要 性 。 
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4.1 数据 数组 


第 3 章 介绍 了 Python 提供 的 一 些 相当 实用 而 灵活 的 通用 数据 结构 ， 特 别 是 列表 对 象 ， 
它 可 以 被 视 为 真正 的 主力 干将 ， 具 有 许多 方便 的 特性 ， 可 应 用 于 多 个 应 用 领域 。 然 而 ， 
科学 和 金融 应 用 通常 有 在 特殊 数据 结构 上 进行 高 性 能 操作 的 需求 。 这 方面 最 重要 的 数 
据 结 构 之 一 是 数组 。 数 组 通常 在 行 和 列 中 存放 相同 数据 类 型 的 其 他 ( 基本 ) 对 象 。 
现在 假定 我 们 只 使 用 数值 ， 但 是 这 些 概 念 可 以 推广 到 其 他 类 型 的 数据 。 在 最 简单 的 情 
况 下 ， 一 维 数组 从 数学 上 讲 ， 一 般 可 以 表示 一 个 实数 向 量 ， 这 些 实数 的 内 部 表示 是 浮 
点 对 象 。 一 维 数组 只 表示 单行 或 者 单列 元 素 。 在 更 常见 的 情况 下 ， 数 组 可 以 表示 一 个 iXj 
个 元 素 的 矩阵 。 这 一 概念 可 以 推广 到 iXjXk 个 元 素 的 立方 矩阵 (3 维 数组 ), 以 及 包 
含 iXj Xk XlX… 个 元 素 的 n 维 数 组 。 

线性 代数 和 向 量 空间 理论 等 数学 课程 阐述 了 这 种 数学 结构 在 许多 学 科 和 领域 中 的 重要 
性 ， 也 就 证 明了 专门 为 方便 、 高 效 地 处 理 数 组 设计 而 提供 的 数据 结构 是 卓有成效 的 。 
这 些 领 域 也 是 Python 的 NumPy 库 及 其 ndarray 类 大 展 身 手 的 领域 ,在 介绍 这 个 类 之 前 ， 
先 介绍 处 理 数 组 的 另外 两 种 替代 方法 。 


4.1.1 用 Python 列表 形成 数组 
数组 可 以 用 第 3 章 介绍 的 内 建 数据 结构 构造 。 列 表 对 象 特 别 适 合 于 完成 这 项 任务 。 简 
单 的 列表 已 经 可 以 视 为 一 维 数组 : 

In [1]: v = [0.5, 0.75, 1.0, 1.5, 2.0] @ 
@ 包含 数值 的 列表 对 象 。 
由 于 列表 对 象 可 能 包含 任意 的 其 他 对 象 ， 它 们 也 可 以 包含 其 他 列表 对 象 。 这 样 ， 二 维 
数组 和 更 高 维 的 数组 很 容易 通过 向 套 列表 对 和 象 来 构造 : 








































































































O 包含 列表 对 象 的 列表 对 象 。 
@ 构成 一 个 数值 矩阵 。 
我 们 也 可 以 很 轻松 地 通过 简单 的 索引 选择 行 ， 通 过 双重 索引 访问 单个 元 素 (但 是 ， 选 
择 整 列 不 容易 ): 


In [3]: m[1] 
Out (3) -L005 075r 1.0). “Led 72.4.0] 
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In [4]: m[1] [0] 
Out [4]: 0.5 


mB UE, WS EEA : 


In [Sv = [OS 1.5] 
v2 = [1, 2] 
m= [vl, v2] 
c= [m, m] © 
c 
Out [ols [[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]] 


In [6]: c[1][1] [0] 
Out [6]: 


@ 多 维 数组 。 





注意 ， 按 照 刚 才 介 绍 的 方式 所 组 合 的 对 象 通常 使 用 原始 对 象 的 引用 指针 。 这 在 实践 中 


有 何 意义 ? 我们 来 看 看 以 下 的 操作 : 





Im LT hi = [0.5, 0.75, 1.0, 1.5, 2.0] 
m= [v, v, v] 
m 

Out [7i EO Sy 0. 7o4- L007 Lede 20), 


(0.5, 0.75, 1.0, 1.5, 2.0], 
(0.5, 0.75, 1.0, 1.5, 2.0]] 


WE, WE v 对 象 的 第 一 个 元 素 ， 看 看 m 对 象 发 生 了 什么 : 


In [8]: v[0] = "Python' 
m 
Out[8]: [['Python', 0.75, 1.0, 1.5, 2.0], 
['Python', 0.75, 1.0, 1.5, 2.0], 
['Python', 0.75, 1.0, 1.5, 2.0]] 


使 用 copy 模块 的 deepcopy 函数 可 以 避免 这 一 现象 ; 


In [9]: from copy import deepcopy 
v LO ssy, OTS .0 LS 2.0] 
m = 3 * [deepcopy(v), ] © 
m 
[ 





Out [9]: Osy 02-194. 1.0% Lad 2/01, 
[Ow Oddy “LO p > Lady. 2:10] 5 
OSyp 0oy TOR dd 220]: ] 
In [10]: v[0] = 'Python' @ 
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m © 
Out[10]: [[0.5, 0.75, 1.0, 1.5, 2.0], 
[O37 "0% Dy “04 wd: 0]y 
[0.5% O47 L300% e 2 25,0) -] 


@ 用 物理 副本 代替 引用 指针 。 
@ 结果 是 原始 对 象 的 改变 。 
© 不 再 对 m 有 任何 影响 。 











4.1.2 Python array 类 
Python 中 有 一 个 专门 的 array 模块 ， 下 面 是 Python 官方 文档 中 的 说 明 。 


该 模块 定义 一 个 对 象 类 型 ， 对 象 类 型 以 紧凑 的 方式 表示 基本 值 的 数组 : 字符 、 
整数 、 浮 点 数 。 数 组 是 顺序 类 型 ， 其 表现 与 列表 非常 相似 ， 但 保存 在 数组 中 
的 对 象 类 型 受到 限制 。 类 型 在 对 象 创建 时 用 一 个 单字 符 的 类 型 代码 来 指定 。 


考虑 如 下 代码 ， 它 通过 一 个 列表 对 象 来 实例 化 数组 (array ) 对 象 : 























In Lh) aS. P0w5, 0275, 1%:0,- L557 2504 
In [12]: import array 
In [13]: a = array.array('f', v) © 

a 


Out: [13] array (E "y; [0357 0757 1.05 1.55. °2..0)) 


In [14]: a.append(0.5) @ 
a 
Out[14]: array('f£"', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5]) 


In [15]: a.extend([5.0, 6.75]) @ 

a 

Qutb [Ls]. array (E's: Oo 0605, Le Oy Dy -2307 0:5: DO Gr FOL) 

In [16]: 2* a ® 

out EL6 Js. array (TE [Om Olde 15.07 LeS 22.80 7- 0/55 55.0," 6% 75,057 
0.75% 105. 1.3 2250) 0.5; 5207 :065799) 


@ 以 类 型 代码 E 表示 浮 点 数 ) 实例 化 数组 对 象 。 

@ 主要 方法 与 列表 对 象 类 似 。 

O 虽然 “标量 乘法 ”理论 上 可 行 ， 但 结果 与 数学 理论 不 符 ， 它 只 是 重复 元 素 。 
附加 与 指定 数据 类 型 不 同 的 对 象 将 导致 TypeError 错误 : 
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In [17]: a.append('string') © 





TypeErrorTraceback (most recent call last) 
<ipython-input-—17-14cd6281866b> in <module>() 
----> 1 a.append('string') © 


TypeError: must be real number, not str 


In [18]: a.tolist() @ 
Out [L872 [Os dy. OV7S, 2.0, Bob, 2.0% O25, 540; 6275] 


O 只 能 附加 浮 点 数 对 象 ， 其 他 数据 类 型 或 类 型 代码 将 导致 出 错 。 
@ 不 过 ， 如 果 有 必要 ， 数 组 对 象 很 容易 轻松 地 转换 回 列 表 对 象 。 
array 类 的 优势 之 一 是 具有 内 建 存储 及 检索 功能 : 


In [19]: f = open('array.apy', 'wb') © 
a.tofile(f) @ 
f.close() ® 



































In [20]: with open('array.apy', 'wb') as f: @ 
a.tofile(f) © 


In [21]: !ls -n arr* © 
-rw-r--r--@ 1 503 20 32 Nov 7 11:46 array .apy 


@ 打开 一 个 磁盘 文件 来 写 人 二进制 数据 。 

@ 将 数组 数据 写 到 文件 中 。 

© 关闭 文件 。 

O BRT: 用 with 上 下 文 完成 相同 操作 。 

O 显示 写 入 磁盘 的 文件 。 

和 前 面 一 样 ， 从 磁盘 读 取 数据 时 ，array 对 象 的 数据 类 型 很 重要 : 


In [22]: b = array.array('f') © 








In [23]: with open('array.apy', 'rb') as f: @ 
b.fromfile(f, 5) © 


In [24]: b 9 
Out[24]: array('f', [0.5, 0.75, 1.0, 1.5, 2.0]) 








In [25]: b = array.array('d') @ 





4.1 数据 数组 


In [26]: with open('array.apy', 'rb') as f: 
b.fromfile(f, 2) © 


In [27]: b 9 
Out [27]: array('d', [0.0004882813645963324, 0.12500002956949174]) 


@ 用 类 型 码 float 初始 化 新 的 数组 对 象 。 

@ 打开 文件 来 读 取 二 进 制 数据 。 

© 将 5 个 元 素 读 人 b 对 象 。 

@ 用 类 型 码 double 初始 化 一 个 新 的 数组 对 象 。 
@ 从 文件 中 读 取 两 个 元 素 。 

O 类 型 码 的 不 同 导致 “错误 ”的 数字 。 

















4.2 常规 NumPy 数组 

用 列表 对 象 组 成 数组 结构 是 可 行 的 。 但 是 这 实现 起 来 并 不 方便 ，1i st 类 本 身 不 是 为 这 
一 特殊 目标 设计 的 ， 它 是 为 了 更 广泛 、 更 通用 的 目的 而 构建 的 。array 类 更 专业 一 些 ， 
提供 了 处 理 数据 数组 的 一 些 实用 功能 。 但 是 专用 的 类 能 够 真正 地 为 处 理 数组 类 型 结构 
带 来 好 处 。 


4.2.1 基础 知识 
numpy .ndarray 就 是 专用 类 ， 它 能 够 方便 、 高 效 ( 也 就 是 高 性 能 ) 地 处 理 维 数组 。 
同样 ， 最 好 是 用 示例 来 说 明 这 种 类 的 使 用 方式 : 


In [28]: import numpy as np © 
































In [29]: a = np.array([0, 0.5, 1.0, 1.5, 2.0]) @ 
a 
OUuE (29) se array (10s. 7 Ded, Le yp Ted, 25) 


In [30]: type(a) © 
Out [30]: numpy.ndarray 


In [31]: a = np.array(['a', 'b', 'c']) ® 
a 
Out [31]: array(['a', 'b', 'c'], dtype='<U1"') 








In [32]: a = np.arange(2, 20, 2) © 
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a 


Out [32]: array([ 2, 4, 6, 8, 10, 12, 14, 

In [33]: a = np.arange(8, dtype=np.float) 
a 

Out [33]: array([0., 1., 2., 3., 4., 5., 


In [34]: a[5:] © 
Out [34 


In [35]: a[:2] © 
Out [35 











: array([0., 1.]) 


@ SA numpy 软件 包 。 


@ 从 包含 浮 点 数 的 列表 对 象 中 创建 一 个 ndarray WR. 
@ 从 包含 字符 串 的 列表 对 象 中 创建 一 个 ndarray 对 象 。 





© np.arange () 4 range () 的 工作 方式 类 似 。 
© np.arange () 增加 了 一 个 输入 参数 dtype。 
O 对 于 一 维 ndarray 对 象 ， 索 引 方式 不 变 。 











numpy .ndarray 类 的 主要 特征 之 一 是 它 有 多 


In [36]: a.sum() © 
Out [36]: 28.0 








In [37]: a.std() @ 

Out [37]: 2.29128784747792 

In [38]: a.cumsum() ® 

Qut:[38).} array (lL Oiz Lag Sig “Oey 10s, 


@ 所 有 元 素 的 总 和 。 
@ 元 素 的 标准 差 。 
© 所 有 元 素 的 累计 总 和 (从 索引 位 置 0 起 )。 


另 一 个 重要 特征 是 在 ndarray 对 象 上 定义 的 〈 向 量化 ) 数学 运 





In [39]: 1 = [0., 0.5, 1.5, 3., 5.] 
2*10 





15., 


18]) 


-)) 








1 内 = 


法 ， 例 如 : 





Out [39]: [0.0, 0.5, 1.5, 3.0, 5.0, 0.0, 


In [40]: a 


Out [40]: array([0., 1., 2., 3., 4., 5. 

















1.5, 3.0, 5.0] 
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In [41 2*a@ 

Out [41 array Ong “Zap Fey) Cer Ber (DO yp 12 ay LAT 

In [4 a ** 2 © 

Out [4 array Oise hie sd “Oe LO Zp SG AST) 

In [43 2** a 0 

Out [43 array deep. Div ge Meg Bego LOK sg 32:7 4s, 128:.,]) 

In [4 a ** a © 

Out [4 array([1.00000e+00, 1.00000e+00, 4.00000e+00, 
2.56000e+02, 3.12500e+03, 4.66560e+04, 


对 列表 对 象 使 用 标量 乘法 来 复制 元 素 。 

相反 ，ndarray 对 象 可 以 实现 正确 的 标量 乘法 。 
计算 每 个 元 素 的 平方 值 。 

将 ndarray UR (EATER ROR AA. 

CEE TIC EER AS FHA 

通用 函数 是 NumPy 软件 包 的 男 一 个 








oo © © © 























2.70000e+01, 
8.23543e+05]) 


EE 要 特性 。“ 通 用 ” 指 的 是 ， 它 们 一 般 既 可 以 用 在 





ndarray 对 象 上 ， 也 可 用 于 Python 的 基本 数据 类 型 上 。 但 当 通 月 




















日 函数 应 月 





HEIR Python 








WR (如 float) 时 ， 使 用 者 必须 意识 到 ， 其 性 能 不 如 math 模块 中 的 可 实现 相同 目 
标的 功能 : 
In [45]: np.exp(a) © 
Out [45]: array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 
2.00855369e+01, 5.45981500e+01, 1.48413159e+02, 
4.03428793e+02, 1.09663316e+03]) 
In [46]: np.sqrt(a) @ 
Out [46]: array([0. r he yp De S14 21356) 173205081; 2 > 
2.23606798, 2.44948974, 2.64575131]) 
In [47]: np.sqrt(2.5) © 
Out [4 1.5811388300841898 
In [48 import math ® 
In [49]: math.sqrt (2.5) © 
Out [49 1.5811388300841898 
In [50]: math.sqrt(a) © 
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0 
© 
© 
© 
© 
© 
@ 





TypeErrorTraceback (most recent call 


last) 


<ipython-input-—50-b39de4150838> in <module>() 


----> 1 math.sqrt (a) © 


TypeError: only size-1 arrays can be converted to Python scalars 


In [51]: %timeit np.sqrt (2.5) © 


722 ns + 13.7 ns per loop (mean + std. dev. of 7 runs, 


1000000 loops each) 


In [52]: stimeit math.sqrt(2.5) @ 


91.8 ns + 4.13 ns per loop (mean + std. dev. of 7 runs, 


10000000 loops each) 
计算 每 个 元 素 的 指数 值 。 

计算 每 个 元 素 的 平方 根 。 

计算 Python 浮 点 对 象 的 平方 根 。 

使 用 math 模块 进行 相同 的 计算 。 

math.sqrt () 函数 不 能 直接 应 用 到 ndarray WR. 
将 通用 函数 np. sqrt () 应 用 到 Python 浮 点 对 象 。 
其 速度 远 慢 于 用 math . sqrt () 函数 进行 的 相同 运算 。 




















4.2.2 多维 数组 
一 维 以 上 的 数组 可 以 无 颖 过渡， 迄今 为 止 介绍 的 功能 都 可 以 用 于 更 一 般 的 示例 ， 特 别 
是 当 所 有 的 维度 都 有 一 致 的 索引 方式 时 : 


In [53]: b = np.array([a, a * 2]) © 

b 

Out. [53]? -array (UL 0y Laz 2er Bap Eep Dey Cey 
[Quy Bap Oa Sig LO yp, 12 


In [54]: b[0] @ 


Out [54]: array([0., 1., 2., 3., 4., 5., 6., 7. 


In [55]: b[0, 2] © 
Out [55]: 2.0 





In [56]: b[:, 1] ©@ 
Out [56]: array([1l., 2.]) 
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In [57]: b.sum() © 
Out [57]: 84.0 


In [58]: b.sum(axis=0) © 





In [59]: b.sum(axis=1) @ 
Out [59]: array([28., 56.]) 


从 一 维 ndarray 对 象 构造 二 维 对 象 。 

选择 第 1 行 。 

选择 第 1 行 的 第 3 个 元 素 ; 索引 在 方 插 号 中 ， 以 逗号 分 隔 。 
选择 第 2 列 。 

计算 所 有 值 的 总 和 。 

沿 第 1 个 轴 ( 即 按 列 ) 计算 总 值 。 

o 沿 第 2 个 轴 ( 按 行 ) 计算 总 值 。 

















© © O © @ 8 





Out [58) s array (LE 06 Sur, 00. Og LT2 up Dr D8 sie 21.49) 


初始 化 ( 实例 化 ) ndarray 对 象 有 许多 种 方式 。 前 面 已 经 介绍 了 一 种 一 一 通过 

















np.array, 但是， 这 种 方法 有 个 前 担 ， 即 所 有 数组 元 素 已 经 可 用 。 但 是 ， 有 人 可 














欢 先 实例 化 ndarray 对 象 , 然后 再 用 代码 执行 期 间 生成 的 结 和 





可 以 使 用 如 下 代码 : 


In [60]: c = np.zeros((2, 3), dtype='i', order='C' 
c 

Out [60]: array ([[0, 0, 0], 

[0, 0, 0]], dtype=int32) 


In [61]: c = np.ones((2, 3, 4), dtype='i', order=' 
c 








Out [61]: array([[[1, 1, 1, 1], 




















1, 1, 1, 1]]], dtype=int32) 


In [62]: d = np.zeros_like(c, dtype='f16', order=' 
d 
Out [62]: -array (LELO 0., 


46 
He 


填充 数组 。 为 此 , 我 们 


) 0 
c') @ 
c') © 
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5 OJ; 
[O., , , 0.]]], dtype=float128) 
In [63]: d = np.ones_like(c, dtype='f16', order='C') © 
d 
Out [63]: array([[[1., 1., 1., 1.], 
A r r r 
, 1l., , l; 
HER r r 7 
E r r r 
' r 7 ]], dtype=float128) 
In [64]: e = np.empty((2, 3, 2)) © 
e 
Out [64]: array([[[0.00000000e+000, 0.00000000e+000], 
0.00000000e+000, 0.00000000e+000], 
0.00000000e+000, 0.00000000e+000)], 
[[0.00000000e+000, 0.00000000e+000], 
0.00000000e+000, 7.49874326e+247], 
1.28822975e-231, 4.33190018e-311]]]) 
In [65]: f = np.empty_like(c) @ 
£ 
Out [65]: array([[ 0, 0, 0, Ol, 
0, 0, 0, 0], 
0, 0, 0, 0]]， 
[ 0, 0, 0, 0], 
0, 0, 740455269, 1936028450], 
0, 268435456, 1835316017, 2041]]], 
dtype=int32) 
In [66]: np.eye(5) © 
Out [66]: array([[1., 0., 0., 0., 0.], 
Org Ding Org Oks yo Oe Ay 
Deg Ghee Dap Oey Ws Dy 
Deg Ghee Dore. Lay Daly 
Dag Cap Dep Oey Leal]? 
In [67]: g = np.linspace(5, 15, 12) © 
g 
Out [67]: array([ 5. , 5.90909091, 6.81818182, 7.72727273, 8.63636364, 


9.54545455, 
13.18181818, 


@ 创建 一 个 ndarray 对 象 ， 预 先 为 其 填充 0。 


10.45454545, 
14.09090909, 


11.36363636, 
15.]) 


12.27272727, 
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@ 创建 一 个 nqarray 对 象 ， 预 先 为 其 填充 1。 

© 同上 ,但 通过 男 一 个 ndarray 对 象 来 推导 数组 的 构成 。 

O 创建 一 个 不 预先 填充 任何 数值 的 ndarray 对 象 (数值 取决 于 内 存 中 的 对 应 位 )。 
O 创建 一 个 代表 方 阵 的 ndarray 对 象 ， 在 对 角 线 位 置 填充 1。 


O 创建 一 维 ndarray XZR, 数值 之 间 有 均匀 的 间隔 ; 参数 为 start (UA), end 
( 结束 值 ) 和 num (元 素数 量 )。 


这 些 函 数 提供 了 如 下 信息 。 
组 成 

整数 Gnt) 、 整 数 序列 或 者 引用 男 一 个 ndarray。 
dtype ( J 34 ) 















































dtype 一 一 用 于 ndarray 对 象 的 NumPy 特定 数据 类 型 。 
order ( 顺序 ， 可 选 ) 


在 内 存 中 存储 元 素 的 顺序 : C 指 和 C 语言 相似 ( 行 优先 ) , F 指 和 Fortran 类 似 ( 列 
优先 ) 。 


现在 ， 和 基于 列表 的 方法 相 比 ，NumPy 用 ndarray 类 构造 数组 的 方式 的 特殊 之 处 已 
经 很 明显 : 


。 ndarray 对 象 有 内 建 的 维度 ( 轴 ); 

。 ndarray 对 象 是 不 可 变 的 ， 其 长 度 (大 小 ) 固定 ; 

。 ”整个 数组 只 允许 一 种 数据 类 型 (np.dtype)。 

相 比 之 下 ，class 类 的 共同 特性 只 有 一 个 : 只 允许 单一 数据 类 型 ( 类 型 码 为 dtype )。 


order 参数 的 作用 将 在 本 章 后 面 讨 论 。 表 4-1 提供 了 np.dtype 对 象 的 简介 (BI NumPy 
可 以 使 用 的 基本 数据 类 型 )。 






































表 4-1 NumPy dtype WR 




















dtype 描述 示例 
? 布尔 值 ? (true 或 者 false ) 
i 有 符号 整数 i8 (64 位 ) 
u 无 符号 整数 u8 (64 位 ) 
f 浮 点 数 £8 (64 位 ) 
c 浮 点 复数 c32 (256 位 ) 
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dtype 描述 示例 
m 时 间 差 m(64 位 ) 
M 日 期 时 间 M(64 位 ) 
O 对 象 o (指向 对 象 的 指针 ) 
U Unicode U24 (24 个 Unicode 字符 ) 
v 其 他 V12 (12 字 节 数据 块 ) 








4.2.3 ”元 信息 














每 个 ndarray 对 象 都 提供 了 一 些 有 用 的 属性 : 
In [68]: g.size © 
Out [68]: 12 
In [69]: g.itemsize @ 
Out [69]: 8 
In [70]: g.ndim © 
Out [70]: 1 
In [71]: g.shape @ 
Out [71]: (12,) 
In [72]: g.dtype © 
Out [72]: dtype('float64") 
In [73]: g.nbytes © 
Out [73]: 96 
O 元 素数 量 。 
@ 用 于 表示 一 个 元 素 的 字 节 数 。 
© 维 数 。 
@ ndarray 对 象 组 成 。 


© 元 素 的 dtype。 
@ 在 内 存 中 使 用 的 字 节 总 数 。 


4.2.4 ”改变 组 成 与 大 小 
虽然 ndarray 对 象 默 认 是 不 可 变 的 ， 但 可 以 改变 这 种 对 象 的 组 成 和 大 小 ,方法 有 多 种 。 
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改变 组 成 通常 只 是 提供 对 同一 组 数据 的 男 一 种 视图 ， 改 变 大 小 通常 是 创建 一 个 新 临 
时 ) 对 象 。 首 先 介绍 一 些 改变 组 成 的 例子 : 


In [74]: g = np.arange (15) 





In [75]: g 
Out[75]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 


In [76]: g.shape © 
Out [76]: (15,) 


In [77]: np.shape(g) © 
Out [77]: (15,) 





In [78]: g.reshape((3, 5)) @ 

Out[78]: array([[ 0, 1, 2, 3, 4], 

[ 5, 6, 7, 8, 9], 

LL10; TR, 12- 37 147149 











In [79]: h = g.reshape((5, 3)) © 


h 
Out[79]: array([[ 0, 1, 2], 
Sy 45 ST; 
6, 7, 8], 
9, 10, 11] 


12, 13, 44]1) 


In [80]: h.T 9 
Out[80]: array([[ 0, 3, 6, 9, 12], 

1,4, Ty 10; T3; 
2, 5, 8, 11, 14]]) 


In [81]: h.transpose() @ 

Out[81]: array([[ 0, 3, 6, 9, 12], 
Dy Se Tp AD DS 
2, 5, 8, 11, 14]}) 


原始 ndarray 对 象 的 组 成 。 

将 对 象 组 成 改 为 二 维 〈 内 存 视图 )。 
创建 一 个 新 对 象 。 

新 ndarray 对 象 的 转 置 。 


在 改变 组 成 的 操作 中 ，nqarray 对 象 中 的 元 素 总 数 不 变 。 在 改变 大 小 的 操作 中 ， 这 一 
数量 改变 一 一 可 能 减少 〈 缩 小 ) 或 者 增加 (扩大)。 下 面 是 改变 大 小 的 一 些 例子 : 





0 
© 
© 
© 
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In [82]: 
Out [82]: 


In [83]: 
Out [83]: 


In [84 
Out [84 


In [85 
Out [85 


In [86]: 








Out [86 


g 
array ([ 


np.resize(g, 


array ([ 


: np.resize(g, 


array ([ 


: np.resize(g, 


array ([ 





Oe 2, 


(3, 


Ol, 


Op Ly 2; 


Os Li; 
5, 6, 7， 


np.resize(g, 


14, 


@ 缩小 二 维 数组 。 
@ 扩大 二 维 数组 。 











堆 琶 是 一 种 特殊 操作 , 可 以 将 两 个 ndarray 对 象 从 水 平 或 者 垂直 方向 组 合 起 来 。 但 是 ， 


“连接 ”的 对 象 的 维 的 大 小 必须 相同 : 














In [87]: h 
Out[87]: array([[ 0, 1, 2], 
3, 4, 5], 
Gr Tr Biv 
9, 10, UL], 
12, 13, 14]]) 
In [88]: np.hstack((h, 2 * h)) © 
Out [88]: array([[ 0, 1, 2, 0, 2, 4], 
37 Ar :Sp 6, 8, 10), 
6, 7, 8, 12, 14, 16], 
9 10, U1, 18, 20, 222], 
12, 13, 14, 24, 26, 28]]) 
In [89]: np.vstack((h, 0.5 * h)) @ 
Out T89] array CEE 03-27: dep 2r Dy 





4.2 常规 NumpPy 数组 


95 


, 10. , 11. J, 








3. 
6. 
9. 

12. , 13. , 14. J, 
Qu , 0.5, 1. J, 
1.5, 2. , 2.5], 
3. , 3.5, 4. |, 
4.5, 5. , 5.5], 
6. , 6.5, 7 ] ) 


@ 两 个 ndarray 对 象 进行 水 平 堆 琶 。 

@ 两 个 ndarray WAVE THE HES 

另 一 种 特殊 操作 是 对 多 维 ndarray 对 象 进行 扁平 化 操作 , 使 其 成 为 一 维 对 象 。 我 们 可 
以 选择 按照 行 〈C 顺序 ) 或 者 列 CB 顺序 ) 进行 扁平 化 : 


In [90]: h 
Out [90]: array ([ 
































In [91]: h.flatten() © 
Out [9L]s array ([ (0). Ll, 2, Bgy Ay Sy Ge Tr 8, 9, 10, 11, 12, 13, 14 


In [92]: h.flatten(order='C') © 
Out [92] array ([ 0y 1,..2,. 3; 47 Sy 6, TV, 8, 9, 10, T1, 12, 13, 14 














In [93]: h.flatten(order='F') @ 
OUEL93] 3: array tL Op 3p 67 97-12): hy Ar Fy LO, -13 7 22, oy By LL, LA 


























In [94]: for i in h.flat: © 
print (i, end=',"') 
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14, 
In [95]: for i in h.ravel(order='C'): @ 
print (i, end=',"') 
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14, 
In [96]: for i in h.ravel(order='F'): @ 














print (i, end=',') 
0,376; 9,12; irar hs NO 2r 578711, £4, 


@ 默认 扁平 化 顺序 为 Co 
@ 以 下 顺序 进行 扁平 化 。 
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© flat Aree time ei (tar 


O ravel () # flatten () 




















42.5 布尔 数组 
对 象 上 的 比较 和 逻辑 运算 通常 和 标准 Python 数据 类 型 一 样 : 按 元 素 顺序 进行 。 





条 件 进 行 求 值 的 默认 结 


In [97] : 
Out [97]: 


In [98]: 
Out [98]: 


in L9ots 
Out [99]: 


In [100]: 


Out [100] 


Tre Ol] 
Out [101]: 


In [102] 
Out [102] 








CC 顺序 )。 
的 替代 方法 。 





TT 


个 布尔 型 ndarray 对 象 (dtype X bool): 




































































吉 果 是 一 
h 
array([[ 0, 1, 2], 
37 Ay STs 
6, 7, 8), 
9, 10, 11], 
12, 13, 14]]) 
hn>80 
array([[False, False, False], 
False, False, False], 
False, False, False], 
rue, True, True], 
rue, True, True]]) 
h <= 7 @ 
array ([ rue, True, True], 
rue, True, True], 
rue, True, False], 
False, False, False], 
False, False, False]]) 
h == © 
array([[False, False, False], 
False, False, True], 
False, False, False], 
False, False, False], 
False, False, False]]) 
(h == .astype (int) @ 
array ([[0, 0, 0], 
0, 0, 1], 
0, 0, 0], 
0, 0, 0], 
0, 0, 0]]) 
(h > 4) & (h <= 12) © 
: array([[False, False, False], 
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False, False, True], 





rue, rue, rue], 











rue, rue, rue], 





True, False, False]]) 

EKF A 吗 ? 

值 小 于 或 等 于 B 吗 ? 

由 等 于 C 吗 ? 

以 整数 0 和 1 代表 True 和 False。 

HAF D 且 小 于 或 等 于 E 吗 ? 

这 种 布尔 数组 可 用 于 索引 和 数据 选择 。 例 如 ， 如 下 对 数据 的 扁平 化 操作 : 


In [103]: h[h > 8] © 
Out[103]: array([ 9, 10, 11, 12, 13, 14]) 





© © © © © 




















In [104]: h[(h > 4) & (h <= 12)] @ 
Out [104]: array([ 5, 6, 7, 8, 9, 10, 11, 12]) 











[In L05]: h[(h < 4) (h >= 12)] © 
Out[105]: array([ 0, 1, 2, 3, 12, 13, 14]) 


@ 所 有 大 于 A 的 值 。 
© 所 有 大 于 B 且 小 于 等 于 C 的 值 。 
© 所 有 小 于 D 或 大 于 等 于 E 的 值 。 


np.where () 函数 是 这 方面 的 一 个 强大 工具 ， 可 以 根据 某 个 条 件 是 True 或 者 False 
来 定义 操作 。 应 用 np.where () 生成 的 结果 是 一 个 与 原始 对 象 有 着 相同 组 成 形式 的 新 
ndarray WE: 


















































In [106]: np.where(h > 7, 1, 0) © 
Out[106]: array([[0, 0, 0], 
昌 One Od 
0, O, Lly 
aga ges TG 
ty «Ae TLS 


In [107]: np.where(h % 2 == 0, 'even', 'odd') @ 
Out[107]: array([['even', 'odd', 'even'], 

"odd', ‘even', ‘odd'], 

"even', 'odd', ‘even'], 

"odd', ‘even', ‘odd'], 


"even', ‘odd', 'even']], dtype='<U4"') 
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In [108]: np.where(h <= 7, h * 2, h / 2) © 
Out[108]: array([[ 0. , 2. , 4. ], 
Gus gp Ba fy 10%. Jy 


O 在 新 对 象 中 ， 如 果 条 件 为 真 则 设置 为 1， 否则 设置 为 0。 

O 在 新 对 象 中 ， 如 果 条 件 为 真 则 设置 为 even， 否则 设置 为 odd, 

© 在 新 对 象 中 ， 如 果 条 件 为 真 则 设置 为 h 元 素 的 两 倍 ， 和 否则 设置 为 n 元 素 的 一 半 。 
后 面 儿 章 将 提供 ndarray 对 象 重要 操作 的 更 多 例子 。 


4.2.6 ”速度 对 比 

稍 后 ,我 们 将 介绍 NumPy 结构 化 数组 ,但 在 介绍 之 前 ， 先 来 看 看 这 种 专业 化 的 常规 数 
组 能 带 来 什么 样 的 性 能 。 

做 个 简单 的 练习 ， 假 定 我 们 要 生成 一 个 5000 x 5000 个 元 素 组 成 的 矩阵 /数组 ， 在 矩阵 中 
填 入 标准 正 态 分 布 的 ( 伪 ) 随机 数 ， 然 后 计算 所 有 元 素 的 总 和 。 首 先 采 用 纯 Python 方 
法 ， 使 用 列表 推导 ; 





























In [109]: import random 
I = 5000 
In [110]: %time mat = [[random.gauss(0, 1) for j in range(I)] \ 


for iin range(I)] © 
CPU times: user 17.1 s, sys: 361 ms, total: 17.4 s 
Wall time: 17.4 s 


In [111]: mat[0][:5] @ 
Out[111]: [-0.40594967782329183, 
—1.357757478015285, 
0.05129566894355976, 
—0.8958429976582192, 
0.6234174778878331] 
In [112]: %time sum([sum(1) for l in mat]) © 
CPU times: user 142 ms, sys: 1.69 ms, total: 144 ms 
Wall time: 143 ms 


Out [112]: -3561.944965714259 
In [113]: import sys 


sum([sys.getsizeof(l) for l in mat]) © 
Out [113]: 215200000 
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@ WIRE AE SOR EE. 

@ 从 中 提取 一 些 选择 过 的 随机 数 。 

© 在 列表 推导 期 间 首先 计算 单个 列表 对 象 的 总 和 和， 然后 取 这 些 总 和 的 总 和 。 
@ 加 总 所 有 列表 对 象 使 用 的 内 存 数量 。 


现在 转向 NumPy, 看 看 同一 个 问题 如 何 解 决 。 方 便 起 见 ，NumPy 子 库 random 提供 了 
多 种 函数 ， 以 初始 化 ndarray XR, EREA O) 随机 数 : 
In [114]: %time mat = np.random.standard_normal((I, I)) 0 


CPU times: user 1.01 s, sys: 200 ms, total: 1.21 s 
Wall time: 1.21 s 


























In [115]: $time mat.sum() @ 
CPU times: user 29.7 ms, sys: 1.15 ms, total: 30.8 ms 
Wall time: 29.4 ms 


Out[115]: -186.12767026606448 


In [116]: mat.nbytes © 
Out [116]: 200000000 


In [117]: sys.getsizeof(mat) ® 
Out [117]: 200000112 


O 创建 ndarray 对 象 ， 该 对 象 包 含 标准 正 态 分 布 的 随机 数 ， 其 速度 大 约 为 标准 方法 
的 14 fii. 
O 计算 ndarray 对 象 中 所 有 值 的 总 和 ， 其 速度 大 约 为 标准 方法 的 4.5 倍 。 


© 由 于 与 数据 本 身 的 大 小 相 比 ，ndarray 对 象 的 内 存 开销 很 小 ， 所 以 NumPy 方法 也 
能 节省 一 些 内 存 。 

















使 用 NumPy 数组 
将 NumPy 用 于 基于 数组 的 操作 和 算法 , 通常 可 以 生成 比 纯 Python 更 
紧凑 、 容 易 理 解 的 代码 ， 并 能 显著 地 改进 性 能 。 





4.3 NumPy 结构 数组 


ndarray 类 的 专门 化 明显 带 来 了 许多 真正 有 价值 的 好 处 。 但 是 ， 过 分 狭窄 的 专门 化 措 
施 可 能 给 大 部 分 基于 数组 的 算法 和 应 用 程序 造成 过 大 的 负担 。 因 此 ，NumPy 提供 结构 
数组 ,允许 我 们 至 少 在 每 列 上 使 用 不 同 的 dtype。“ 每 列 ” 是 什么 含义 ? 考虑 如 下 结构 
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数组 对 象 的 初始 化 : 


0 
© 
© 


(4) 


In [118]: dt = np.dtype([('Name', 'S10'), ('Age', 'i4'), 
('Height', 'f'), ('Children/Pets', 'i4', 2)]) © 


In [119]: dt © 
Out [119]: dtype([('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), 
('Children/Pets', '<i4', (2,))]) 


In [120]: dt = np.dtype({'names': ['Name', 'Age', 'Height', 'Children/Pets'], 
"formats':'O int float int,int'.split()}) @ 


In [121]: dt @ 
Out[121]: dtype([('Name', 'O'), ('Age', '<i8'), ('Height', '<f8'), 
('Children/Pets', [('f0', '<i8'), ('f1', '<i8')])]) 


In [122]: s = np.array([('Smith', 45, 1.83, (0, 1)), 
("Jones', 53, 1.72, (2, 2))], dtype=dt) © 











In [123]: s ® 
Out [123]: array([('Smith', 45, 1.83, (0, 1)), ('Jones', 53, 1.72, (2, 2))], 
dtype=[('Name', 'O'), ('Age', '<i8'), ('Height', '<f8'), 
('Children/Pets', [('f0', '<i8'), ('f1', '<i8")])]) 


In [124]: type(s) @ 
Out [124]: numpy.ndarray 


组 成 复杂 的 dtype. 
实现 相同 结果 的 替代 语法 
实例 化 结构 数组 ， 包 含 两 个 记录 。 


对 象 类 型 仍 是 ndarray。 


























从 某 种 意义 上 说 ， 这 种 构造 方法 很 接近 于 SQL 数据 库 中 表 的 初始 化 : 使 用 列 名 、 列 数 
据 类 型 ， 以 及 某 些 附加 信息 〈 例如， 每 个 字符 串 对 象 的 最 大 字符 数 )。 现在， 可 以 简单 








地 用 列 的 名 称 来 访问 各 个 列 : 











In [125]: s['Name'] © 

Out [125]: array(['Smith', 'Jones'], dtype=object) 
In [126 s['Height'].mean() @ 

Out [126 TTTS 

In [127]: s[0] ® 

Out [127]: ('Smith', 45, 1.83, (0, 1)) 
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In [128]: s[1]['Age'] @ 
Out [128]: 53 


O 按 名 称 选 择 一 列 。 

@ 在 选中 的 列 上 调用 方法 。 
© 选择 一 个 记录 。 

@ 选择 记录 中 的 一 个 字段 。 
总 而 言 之 ,结构 数组 是 常规 ndarray 对 象 类 型 的 推广 ， 其 中 每 列 的 数据 类 型 必须 一 样 ， 


就 像 SQL 数据 库 中 的 表 一 样 。 结 构 数 组 的 优势 之 一 是 某 列 中 的 元 素 可 以 是 另 一 个 多 维 
对 象 ， 不 一 定 要 遵循 基本 的 NumPy 数据 类 型 。 

















结构 数组 
~ 除了 常规 数组 之 外 ，NumPy 还 提供 结构 数组 。 你 可 以 用 不 同 的 数据 
类 型 甚至 结构 ， 按 照 (命名 ) 列 描述 和 处 理 相当 复杂 的 面向 数组 数据 
结构 。 它 们 为 Python 带 来 了 类 似 于 SQL 表 的 数据 结构 ， 具 有 常规 
ndarray 对 象 的 所 有 好 处 〈 语 法 、 方 法 、 性 能 )。 





4.4 代码 向 量化 


代码 的 向 量化 是 获得 更 快 执行 速度 、 更 紧凑 代码 的 一 种 策略 。 基 本 思路 是 “一 次 ”在 
一 个 复杂 对 象 上 进行 操作 ， 或 者 对 其 应 用 某 个 函数 ， 而 不 是 通过 在 对 象 的 单个 元 素 上 
循环 来 进行 。 在 Python 中 ,函数 式 编程 工具 map 和 filter 提供 了 向 量化 的 一 些 基 本 
手段 。 在 某 种 意义 上 ，NumPy 的 向 量化 是 其 核心 之 一 。 


4.4.1 基本 向 量化 

正如 在 4.3 节 中 所 学 到 的 ， 简 单 的 数学 运算 ( 如 计算 所 有 元 素 的 总 和 ) 可 以 直接 在 
ndarray 对 象 ( 通过 方法 或 者 通用 函数 ) 上 进行 。 更 通用 的 向 量化 计算 也 是 有 可 能 实 
施 的 ， 例 如 ， 我 们 可 以 将 两 个 NumPy 数组 按 元 素 相 加 : 


In [129]: np.random.seed(100) 
np.arange(12).reshape((4, 3)) © 











































































































E 


s = np.arange(12).reshape((4, 3)) * 0.5 @ 
In [130]: r © 

Out[130]: array([[ 0, 1, 2], 
[ 3, 4, 5], 
[ 267 hy :Bt 
[ 9, 10, 11]]) 
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In [131]: s @ 
Out[131]: array([[0. , 0.5, 1. ], 
de Di I Dis Dy 
Bie Kp See at 2 
4.5; 5.7 “5. 5])) 
In [132]: r+s 9 
Out[132]: array([[ 0. , 1.5, 3. ], 
A Dy Oyen ie Psi Daly 
95 “yr LOSS Ls Try 
1345715. ge LoS] 


o 第 一 个 包含 随机 数 的 ndarray WR, 
o 第 二 个 包含 随机 数 的 ndarray 对 象 。 
© 以 向 量化 运算 (无 循环 ) 实施 按 元 素 相 加 。 





NumPy 还 支持 所 谓 的 广播 ， 可 以 在 一 个 操作 内 组 合 不 同 组 成 的 对 象 。 之 前 我 们 已 经 使 

















用 过 这 种 方法 ， 考 虑 如 下 的 示例 : 





In [133]: r+30 
Out [133]: array([[ 3, 4, 5], 
6, 7, 8], 
9, 10; ELT, 
12, 13, 14]]) 
In [134]: 2 * r @ 
Out[134]: array([[ 0, 2, 4], 
6, 8, 10], 
12, 14, 16], 
18, 20, 22]]) 
In [135]: 2* r+3 9 
Out[135]: array([[ 3, 5, 7], 
97 Ads. 133.5 
15, 177 19), 
21,--23;.° 25) J) 





O 在 标量 加 法 期 间 ， 标 量 被 广播 ， 并 加 到 每 个 元 素 上 。 

@ 在 标量 乘法 期 间 ， 标 量 也 被 广播 ， 并 乘 以 每 个 元 素 。 

© 这 个 线性 变换 结合 了 两 种 运算 。 

在 茶 种 程度 上， 这些 运算 也 适用 于 不 同 组 成 的 ndarray 对 象 : 


In ELS6.] © 
Out [136]: 








array([[ 0, 1, 2], 
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[ 3, 4, 5], 
[ 6, 7, 8], 
[ 9, 10, 11]]) 


In [137]: r.shape 
Out [137]: (4, 3) 


In [138]: s = np.arange(0, 12, 4) © 
s © 
Out[138]: array([0, 4, 8]) 


In [139]: r+s @ 
Out [139]: array ([ 











[ 
[ 
[ 
[ 


In [140]: s = np.arange(0, 12, 3) © 
se 
Out[140]: array([0, 3, 6, 9]) 


In [141]: r+s 9 





ValueErrorTraceback (most recent call last) 
<ipython-input-141-1890b26ec965> in <module>() 
---> lr+s9 





ValueError: operands could not be broadcast together 
with shapes (4,3) (4,) 


In [142]: r.transpose() +s © 

Out [142]: array([[ 0, 6, 12, 18], 
[hy Fy BS ES Ie 
[ 27 8, T4; 201 Jd 


In [143]: sr = s.reshape(-1, 1) © 


Out [143]: array ([ 


In [144]: sr.shape © 
Out[144]: (4, 1) 


In [145]: r + s.reshape(-1, 1) © 
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LO Dee 2g 
[ 6, 7, 8], 
[12, 13, 14], 
[18, 19, 20]]) 


Out[145]: array ([ 


KEEN 3 的 新 的 一 维 ndarray 对 象 。 

r (和 矩阵) 和 s (向 量 ) 对 象 可 以 直接 相 加 。 

另 一 个 长 度 为 4 的 一 维 ndarray 对 象 。 

新 的 s( 向量 ) 对 象 的 长 度 与 + 对象 的 第 二 维 不 一 致 。 

O 青 次 转 置 + 对 象 ， 可 以 实现 向 量化 加 法 。 

@ 另外 ，s 的 组 成 可 以 改变 为 (4,1 )， 以 实现 加 法 运算 (但 是 ， 结 果 不 同 )。 

自 定 义 的 Python 函数 往往 也 可 以 使 用 ndarray 对 象 。 如 果实 现 人 允许 ， 数 组 可 以 像 整 
数 或 者 浮 点 数 对 象 一 样 用 于 函数 。 考 虑 如 下 的 函数 : 


In [146]: def f(x): 
return 3 * x + 5 @ 

































































In [147]: £(0.5) @ 
Out [147]: 6.5 


In [148]: f(r) © 
Out[148]: array([ 














5, 8, 11], 
14, 17, 20], 
23, 26, 29], 
32, 35, 38]]) 


© 一 个 简单 的 Python 函数 ， 实 现 参数 为 x 的 线性 变换 
@ 应 用 到 Python 浮 点 数 对 象 的 函数 £. 
© 同一 个 函数 应 用 到 ndarray 对 象 ， 对 函数 进行 向 量化 和 按 元 素 求 值 。 


NumPy 所 做 的 是 简单 地 为 对 象 的 各 个 元 素 应 用 函数 E。 从 这 个 意义 上 讲 ， 使 用 此 类 操 
作 并 没有 避免 循环 , 只 是 在 Python 级 别 上 避免 它们 , 并 将 循环 委托 给 NumPy。 在 NumPy 
级 别 上 , 在 ndarray 对 象 上 进行 的 循环 由 经 过 高 度 优化 的 代码 负责 ， 大 部 分 代码 用 C 
语言 编写 ， 因 此 一 般 远 快 于 纯 Python。 这 就 可 以 解释 使 用 NumPy 可 以 解决 基于 数组 用 
例 性 能 优势 的 “秘密 ”了 。 


442 内存 布 局 
正如 4.2.2 节 中 所 述 ， 使 用 np .zero 初始 化 ndarray 对 象 时 ， 我 们 为 内 存 布 局 提 
供 可 选 的 参数 。 粗 略 地 讲 ， 这 个 参数 指定 数组 中 的 哪些 元 素 在 相 邻 的 内 存 中 存储 。 
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使 用 小 型 数组 时 ， 这 对 数组 操作 性 能 没有 任何 可 测 的 影响 。 但 是 ， 当 数组 很 大 时 情 
况 就 有 所 不 同 , 这 取决 于 具体 在 数组 上 实施 的 操作 。 这 时 内 存 布局 就 派 上 用 场 了 ( 人参 
见 Eli Bendersky 的 文章 “Memory Layout of Multi-Dimensional Arrays”)。 


为 了 说 明 根据 内 存 布 局 进行 的 数组 处 理 在 科学 和 金融 应 月 


ndarray 对 象 的 构造 : 


In [150]: y=2* x+390 


[n [153]: x 














Out [154]: array([[[-1.75, 
0.514 
-0.46, 


r 


1.02, 
0.83, 


[[-0.5 , 
4.03, 
2.08, 
oor 

2.9 , 
5.04, 
4.67, 





@ 在 两 个 维度 上 有 很 大 对 称 性 的 ndarray WR. 


O 原始 对 象 数 据 的 线性 变换 。 





0.0; y = 0.0 9 


In [154]: C[:2].round(2) © 
0.34, Ley 
O5227. =L 07; 
0.44, -0.58, 


-0.73, 


3.69, 5. 
3.44, 0. 
3.87, 1. 


3.28, 3. 
3.6, 0. 
1.54, 5. 


-0.05, 0.14, 0.17, 
0.3 , -1.23, 
1.03, 


3415 
86, 
83, 


33, 
54, 
06, 





HAS ae ee 





E， 考 虑 如 下 多 维 





In [151]: C = np.array((x, y), order='C') ® 


In [152]: F = np.array((x, y), order='F') @ 


In [149]: x = np.random.standard_normal((1000000, 5)) 


-0.25, 0.98], 
-0.19, 0.26], 
0.82, 0.67], 


0.33, 
-0.68, 
0.34, 


5, 4 
-62, 3. 
-63, 4. 


SOT Da 
.65, 1. 
09, 2s 


© 创建 一 个 C 顺序 〈 行 优先 ) 的 二 维 ndarray WR. 
O 创建 一 个 F 顺序 〈 列 优先 ) 的 二 维 ndarray 对 象 。 





@ 内 存 释放 ( 取决 于 垃圾 收集 )。 
@ 来 自 C 对 象 的 一 些 数 值 。 





1.39], 
-0.87], 


0 


-0.46]]， 


96 
51 
35 


78 
26 
07 








我 们 来 看 看 两 种 ndarray 对 象 的 基本 示例 和 用 例 , 考虑 它们 在 不 同 内 存 布局 下 的 
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执行 速度 : 


In [155]: %timeit C.sum() © 
4.36 ms + 89.3 hs per loop (mean + std. dev. of 7 runs, 100 
loops each) 


In [156]: %timeit F.sum() © 
4.21 ms + 71.4 hs per loop (mean + std. dev. of 7 runs, 100 
loops each) 


In [157]: %timeit C.sum(axis=0) @ 
17.9 ms + 776 hs per loop (mean + std. dev. of 7 runs, 100 
loops each) 


In [158]: %timeit C.sum(axis=1) © 
35.1 ms + 999 hs per loop (mean + std. dev. of 7 runs, 10 
loops each) 


In [159]: %timeit F.sum(axis=0) @ 
83.8 ms + 2.63 ms per loop (mean + std. dev. of 7 runs, 10 
loops each) 


In [160]: %timeit F.sum(axis=1) © 
67.9 ms + 5.16 ms per loop (mean + std. dev. of 7 runs, 10 
loops each) 


In [161]: F = 0.0; C = 0.0 


@ 计算 所 有 元 素 的 总 和 。 

@ 计算 每 行 总 和 (“许多 ”)。 

© 计算 每 列 总 和 (“很 少 ”)。 

我 们 可 以 将 性 能 结果 总 结 如 下 : 

。 ”计算 所 有 元 素 总 和 时 ， 内 存 布局 不 重要 ，; 

。 加 总 C 顺序 的 ndarray 对 象 不 管 按 行 和 按 列 都 更 快 (绝对 的 速度 优势 ); 
FF C 顺序 ( 行 优先 ) 的 ndarray 对 象 ， 按 行 加 总 相对 快 于 按 列 加 总 ; 
。 ”对 于 下 顺序 〈 列 优先 ) 的 ndarray 对 象 ， 按 列 行 加 总 相对 快 于 按 行 加 总 。 





e 
= 





4.5 结语 
NumPy 是 Python 中 用 于 数值 计算 的 软件 包 。ndarray 类 是 专门 设计 的 ， 可 以 方便 、 
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高 效 地 处 理 ( 大 型 ) 数值 数据 。 强 大 的 方法 和 NumPy 通用 方法 可 以 让 我 们 进行 代码 向 
量化 操作 ， 避 免 大 部 分 Python 级 别 上 的 缓慢 循环 。 本 章 介 绍 的 许多 方法 也 适用 于 pandas 
软件 包 及 其 DataFrame 类 (参见 第 5 章 )。 





AS Li = 
4.6 ”延伸 阅读 
NumPy 网 站 上 提供 许多 有 益 的 资源 。 
下 面 是 两 本 NumPy 的 参考 用 书 。 
e McKinney, Wes (2017). Python for Data Analysis. Sebastopol, CA: O’Reilly. 








e VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’ Reilly. 
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第 5 章 


pandas [] DDO 





数据 ! 数据 ! 数据 ! 没有 黏土 我 无 法 造 出 砖 来 ! 


一 一 夏 洛克 。 福 尔 摩 
章 介绍 pandas， 这 是 一 个 聚焦 于 表格 数据 的 数据 分 析 程 序 库 。pandas 是 一 个 强大 的 工 


具 ， 它 不 仅 提供 了 许多 实用 类 和 函数 ， 而 且 很 好 地 封装 了 来 自 其 他 软件 包 的 功能 。 该 工 
具 提 供 了 一 个 用 户 接口 ， 能 够 让 用 户 方便 且 高 效 地 实现 数据 分 析 ， 特 别 是 金融 分 析 。 
本 章 介 绍 如 下 基本 数据 结构 : 












































对 象 类 型 含义 用 途 
DataFrame 带 索 引 的 二 维 数据 对 象 按 列 组 织 的 表格 数据 
Series 带 索 引 的 一 维 数据 对 象 单一 (时 间 ) 数据 序列 
本 章 的 组 织 如 下 。 


DataFrame # 





本 节 首 先 用 简单 的 小 数据 集 来 探索 pandas 中 DataFrame 类 的 基本 特性 和 功能 ; 
然后 说 明 如 何 将 NumPy 中 的 ndarray 对 象 转换 为 DataFrame 对 象 


BAD SRA TMM 
这 两 节 介 绍 基本 分 析 与 可 视 化 功能 
Series # 
本 节 短 小 精 悍 ， 介 绍 了 pandas 的 Series 类 。 从 某 种 意义 上 讲 ， 它 是 DataFrame 
的 一 种 特例 ， 只 有 一 列 数 据 。 
GroupBy #46 


续 的 章节 将 深入 介绍 这 些 主题 ) 。 























DataFrame 的 优势 之 一 是 根据 一 列 或 者 多 列 来 分 组 数据 。 这 一 节 探 索 pandas 的 
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分 组 能 力 。 
Ekai 
这 一 节 介绍 如 何 使 用 (复杂 ) 条 件 ， 轻 松 地 从 DataFrame 对 象 中 选择 数据 。 
Fede, ETE RBH 
将 不 同 数 据 集合 而 为 一 是 数据 分 析 中 的 重要 操作 。pandas 提供 了 实现 这 一 任务 的 
不 同 选项 ， 本 节 将 对 此 进行 介绍 。 
Ht BE FFE 
pandas 往往 提供 实现 相同 目标 的 多 个 选项 ， 这 符合 Python 的 常规 。 本 节 简单 介绍 
潜在 的 性 能 差异 。 














5.1 DataFrame 类 


pandas ( 以 及 本 章 ) 的 核心 是 DataFrame， 它 是 用 于 高 效 处 理 表 格 数据 ( 也 就 是 以 列 
进行 组 织 的 数据 ) 的 类 。 为 此 ，DataFrame 提供 了 列 标签 以 及 数据 集中 各 行 (记录 ) 
的 索引 功能 ， 这 与 关系 数据 库 的 一 个 表 或 者 Excel 电子 表格 类 似 。 

本 节 介 绍 pandas 中 DataFrame 类 的 一 些 根 本 特性 。 该 类 非常 复杂 日 强 大 ， 这 里 只 能 
介绍 其 中 的 一 小 部 分 功能 。 后 续 章 节 将 提供 更 多 示例 ， 揭 示 其 不 同方 面 的 特征 。 


5.1.1 使 用 DataFrame 类 的 第 一 步 


从 最 根本 的 层面 上 看 ，DataFrame 类 用 来 管理 具有 索引 和 标签 的 数据 ， 这 些 数据 与 来 
Al SQL 数据 库 表 或 者 电子 表格 应 用 中 工作 表 的 数据 没有 太 多 的 不 同 。 考 虑 如 下 代码 创 
建 的 DataFrame 对 象 : 






























































In [1]: import pandas as pd © 


In [2]: df = pd.DataFrame([10, 20, 30, 40], @ 
columns=['numbers'], © 
index=['a', 'b', 'c', 'd']) 9 


In [3]: df © 

Out [3]: numbers 
a 10 
b 20 
c 30 
d 40 


© =A pandas. 
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定义 列表 对 象形 式 的 数据 。 
指定 列 标签 。 


指定 索引 值 /标签 。 





© 
© 
9 
@ 





显示 DataFrame 对 象 的 数据 以 及 列 和 索引 标签 。 





这 个 简单 的 例子 已 经 说 明了 DataFrame 在 存储 数据 上 的 主要 特性 ， 具 体 如 下 。 


性 > Ah dD 


FIFE 





索引 可 以 采用 不 同 的 格式 〈 如 数值 、 


使 月 








数据 本 身 可 以 用 不 同 组 成 及 类 型 ( 列表、 元 组 、ndarray 不 
数据 以 列 的 方式 被 组 织 ， 可 以 自 定义 列 名 (标签 )。 


[字典 对 象 都 是 候选 者 ) 展现 。 





 、 时 间 信 息 )。 


这 种 DataFrame 对 象 总 体 上 相当 方便 和 高 效 , 例如 , 当 你 想 要 进行 扩大 现 有 对 象 





等 工作 时 , 我 推荐 你 使 用 DataFrame 对 象 。 相 上 





LZ TF, 常规 的 ndarray 对 象 更 专门 化 ， 


也 更 受 限 制 。 与 此 同时 , DataFrame 对 象 往往 在 计算 上 和 ndarray 对 象 一 样 高 效 。 下 





























面 是 简单 的 例子 ， 说 明了 DataFrame 对 象 的 典型 操作 : 
In [4]: df.index © 
Out[4]: Index(['a', 'b', 'c', 'd'], dtype='object') 
In [5]: df.columns @ 
Out [5]: Index(['numbers'], dtype='object') 
In [6]: df.loc['c']® 
Out [6]: numbers 30 
Name: c, dtype: int64 
In [7]: df.loc[['a', 'd']] © 
Out [7 numbers 
a 10 
d 40 
In [8]: df.iloc[1:3] © 
Out [8]: numbers 
b 20 
c 30 
In [9]: df.sum() © 
Out[9]: numbers 100 
dtype: int64 
In [10]: df.apply(lambda x: x ** 2) @ 
Out [10]: numbers 
a 100 
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9 
© 
© 
14) 
© 


© 


in, [11]: 
Out [11]: 


400 


c 900 
d 1600 
df xx 2 © 
numbers 
a 100 
b 400 
c 900 
d 1600 


index 属性 和 Index 对 象 。 
columns 属性 和 Index 对 象 。 

选择 对 应 于 索引 c 的 值 。 

选择 对 应 于 索引 a 和 ob 的 两 个 值 。 

通过 索引 位 置 选择 第 二 行 和 第 三 行 。 

计算 单列 总 和 。 

@ 使 用 apply 方法 ， 以 向 量化 的 方式 计算 平方 值 。 

© filndarray 对 象 一 样 ， 直 接应 用 向 量化 。 

与 NumPy 的 ndarray 对 象 不 同 , 我 们 可 以 在 两 个 维度 上 同时 扩 增 DataFrame WE: 


im [12]: 


TH [3 
Out [13]: 


In [14]: 
Out [14]: 








df['floats'] = (1.5, 2.5, 3.5, 4.5) © 
df 
numbers floats 
a 10 Les 
b 20 275 
c 30 32:5 
d 40 4.5 


df['floats'] @ 

a L535 

b 2.5 

C3. 

d 4.5 

Name: floats, dtype: float64 


O 添加 一 个 新 列 ， 该 列 包含 以 元 组 形式 提供 的 浮 点 数 对 象 。 
@ 选择 该 列 并 显示 其 数据 和 索引 标签 。 
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也 可 以 使 用 整个 DataFrame 对 象 来 定义 一 个 新 列 。 在 这 种 情况 下 ， 索 引 自动 对 齐 ; 


In [15]: df['names'] = pd.DataFrame(['Yves', 'Sandra', 'Lilli', 'Henry'], 
index=['d', 'a', 'b', 'c']) © 
In [16]: df 
Out [16]: numbers floats names 
a 10 1..'5 Sandra 
b 20 2.5 Lilli 
© 30 3:.'5 Henry 
d 40 4.5 Yves 


@ 根据 一 个 DataFrame 对 象 创建 另 一 个 新 列 。 





附加 数据 的 方法 也 类 似 。 但 是 ,在 下 面 的 例子 中 ， 我 们 会 看 到 在 操作 过 程 中 必须 避免 








的 一 个 副作用 一 一 索引 被 简单 的 编号 索引 代替 : 














In [17]: df.append({'numbers': 100, 'floats': 5.75, 'names': 'Jil'}, 
ignore_index=True) ©@ 
Out [17]: numbers floats names 
0 10 1.50 Sandra 
1 20 2.50 Lilli 
2 30 S550 Henry 
3 40 4.50 Yves 
4 100 5.75 Jil 
In [18]: df = df.append(pd.DataFrame({'numbers': 100, 'floats': 5.75, 
"names': 'Jil'}, index=['y',])) @ 
In [19]: df 
Out [19]: numbers floats names 
a 10 T450 Sandra 
b 20 2.50 Lilli 
c 30 3.50 Henry 
d 40 4.50 Yves 
y 100). G75 Jil 
In [20]: df = df.append(pd.DataFrame({'names': 'Liz'}, index=['z',]), 
sort=False) ® 
Em E24] dt 
Out [21]: numbers floats names 
a 10.0 1.50 Sandra 
b 20.0 2.50 Lilli 
G 30.0 3.50 Henry 
d 40.0 4.50 Yves 
y 100.0 5.75 Jil 
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Zz NaN NaN Liz 


In [22]: df.dtypes @ 

Out [22]: numbers float64 
floats float64 
names object 
dtype:object 


O 通过 一 个 字典 对 象 附加 新 行 ; 这 是 一 个 临时 操作 ， 操 作 期 间 索 引信 息 丢 
O 根据 带 索 引信 息 的 DataFrame 对 象 附加 行 ; 原始 索引 信息 保留 
© 向 DataFrame 对 象 附加 不 完整 的 数据 行 ， 生 成 NaN 值 。 

返回 各 列 的 不 同 dtype， 这 与 结构 化 ndarray 对 象 类 似 。 
尽管 此 时 有 遗漏 的 值 ， 但 大 部 分 的 方法 调用 仍然 可 以 正常 工作 : 


In [23]: df[['numbers', 'floats']].mean() © 
Out [23]: numbers 40.00 

Floats 3659 

dtype: float64 





In [24]: df[['numbers', 'floats']].std() @ 
Out [24]: numbers 35.355339 

Floats 1.662077 

dtype: float64 


O 计算 指定 两 列 的 均值 (忽略 带 NaN 值 的 行 )。 
@ 计算 指定 两 列 的 标准 差 〈 忽 略 带 NaN 值 的 行 )。 


5.1.2 ”使 用 DataFrame 类 的 第 二 步 











本 节 的 例子 基于 一 个 包含 标准 正 态 分 布 随机 数 的 ndarray 对 象 。 该 例 探索 管理 时 间 序 
列 数据 的 更 多 功能 ， 如 DatetimeIndex: 


In [25]: import numpy as np 





In [26]: np.random.seed (100) 


In [27]: a = np.random.standard_normal((9, 4)) 





In [28]: a 

Out [28]: array([[-1.74976547, 0.3426804 , 1.1530358 , -0.25243604 
[ 0.98132079, 0.51421884, 0.22117967, -1.07004333 
[-0.18949583, 0.25500144, -0.45802699, 0.43516349 
[-0.58359505, 0.81684707, 0.67272081, -0.10441114 








7 
7 
7 


] 
] 
] 
] 


7 
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[-0.53128038, 1.02973269, -0.43813562, -1.11831825], 
[ 1.61898166, 1.54160517, -0.25187914, -0.84243574], 
[ 0.18451869, 0.9370822 , 0.73100034, 1.36155613], 
[-0.32623806, 0.05567601, 0.22239961, -1.443217 ], 
[-0.75635231, 0.81645401, 0.75044476, -0.45594693]]) 
你 可 以 更 直接 地 构造 DataFrame X% (正如 前 面 所 见 ), 但 是 使 用 ndarray 对 象 通常 
是 一 个 更 好 的 选择 ， 因 为 pandas 将 保留 基本 结构 ,“ 只 ”添加 元 信息 〈 例如 索引 值 )。 


这 也 代表 了 金融 应 用 和 科学 研究 的 一 种 典型 用 例 。 例 如 : 





In [29]: df = pd.DataFrame(a) © 

In [30]: df 

Out [30]: 0 2 3 
0 -1.749765 0.342680 1.153036 -0.252436 
1 0.981321 0.514219 0.221180 -1.070043 
2 -0.189496 0.255001 -0.458027 0.435163 
3 -0.583595 0.816847 0.672721 -0.104411 
4 -0.531280 1.029733 -0.438136 -1.118318 
5 1.618982 1.541605 -0.251879 -0.842436 
6 0.184519 0.937082 0.731000 1.361556 
7 -0.326238 0.055676 0.222400 -1.443217 
8 -0.756352 0.816454 0.750445 -0.455947 








@ H ndarray 对 象 创 建 一 个 DataFrame WR, 


表 5-1 列 出 了 DataFrame () 函数 使 用 的 参数 。 表 中 ,“ 类 似 数 组 ”意味 着 与 ndarray 
对 象 类 似 的 数据 结构 一 一 如 列表 对 象 。“ 索 引 ” 是 pandas 的 Index 类 的 一 个 实例 。 

























































































表 5-1 DataFrame() 函 数 参 数 
参数 格式 描述 
data | ndarray/dict/Datarrame | Patonrome gs dict TAERA, 
index 索引 /类 似 数 组 使 用 的 索引 ; 默认 为 range (n) 
columns | 索引 /类 似 数组 使 用 的 列 标题 ; 默认 为 range (n) 
dtype | atype， 默 认 None 使 用 /强制 的 数据 类 型 ， 否 则 通过 推导 得 出 
copy | 布尔 值 ， 默认 None 从 输入 复制 数据 























和 结构 数组 一 样 ， 我 们 已 经 了 解 ，DataFrame 对 象 可 以 通过 指定 一 个 具有 合适 数量 元 素 的 


























列表 来 直接 定义 列 名 。 下 面 的 例子 说 明 ， 我 们 可 以 随时 定义 /更 改 DataFrame 对 象 的 属性 : 
In [31]: df£.columns = ['Nol', 'No2', 'No3', 'No4'] © 
in [3S2)2 dE 
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Out [32]: Nol No2 No3 No4 
-1.749765 0.342680 1.153036 -0.252436 
0.981321 0.514219 0.221180 -1.070043 
-0.189496 0.255001 -0.458027 0.435163 
-0.583595 0.816847 0.672721 -0.104411 
-531280 1.029733 -0.438136 -1.118318 
1.618982 1.541605 -0.251879 -0.842436 
0.184519 0.937082 0.731000 1.361556 
-0.326238 0.055676 0.222400 -1.443217 
-0.756352 0.816454 0.750445 -0.455947 
In [33]: df['No2'].mean() @ 
Out [33]: 0.7010330941456459 


O 通过 列表 对 象 指定 列 标签 。 

@ 选择 一 列 很 容易 。 

为 了 高 效 处 理 金融 事件 序列 数据 ， 我 们 还 必须 很 好 地 处 理 时 间 索 引 。 这 也 可 以 视 为 
pandas 的 一 个 重要 优势 。 例 如 ， 假 定 分 为 4 列 的 9 个 数据 项 对 应 于 2019 年 1 月 开始 的 
月 底数 据 。 然 后 ， 用 aate_range () 生成 一 个 DatetimeIndex 对 象 : 


In [34]: dates = pd.date_range('2019-1-1', periods=9, freq='M') © 





o u A OF WN FO 
| 
oO 

















In [35]: dates 
Out [35]: DatetimeIndex (['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30', 
"2019-05-31"; '2019-06-30', '2019-07-31', '2019-08-31', 
'2019-09-30'], 
dtype='datetimeé64[ns]', freq='M') 


@ 创建 一 个 DatetimeIndex 对 象 。 
K 5-2 列 出 了 date_range () 函数 的 参数 。 


表 5-2 date_range () 因数 参数 


















































参数 格式 描述 
start 字符 串 / 日 期 时 间 生成 日 期 的 左 界 
end 字符 串 / 日 期 时 间 生成 日 期 的 右 界 
Periods 整数 /None 期 数 ( 如果 start 或 者 end 空缺 ) 
freq 字符 串 / 日 期 偏 移 频率 字符 串 ， 例 如 5D (SR) 
tz 字符 串 /None 本 地 化 索引 的 时 区 名 称 
normalize | 布尔 值 ， 默 认 None 将 start Fil end 规范 化 为 午夜 
name 字符 串 ， 默 认 None 结果 索引 名 称 
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下 列 代码 将 刚刚 创建 的 Datet imeIndex 对 象 定义 为 相关 的 索引 对 象 ， 并 建立 





据 集 的 一 个 时 间 序 列 : 


In [36]: 


In [374 
Out [37]: 





df.index = dates 
df 

Nol 
2019-01-31 -1.749765 
2019-02-28 0.981321 
2019-03-31 -0.189496 
2019-04-30 -0.583595 
2019-05-31 -0.531280 
2019-06-30 1.618982 
2019-07-31 0.184519 
2019-08-31 -0.326238 
2019-09-30 -0.756352 





OoOOOrFrF OOO oO 


.34 
you 
-255001 
.81 
.029733 
-541605 
- 937082 
-055676 


.816454 


No2 
2680 
4219 


6847 





a) 


nh 

















No3 No4 
1.153036 -0.252436 
0.221180 -1.070043 

-0.458027 0.435163 
0.672721 -0.104411 
-0.438136 -1.118318 
-0.251879 -0.842436 
0.731000 1.361556 
0.222400 -1.443217 
0.750445 -0.455947 





至 于 在 date_range () 函数 帮助 下 生成 的 DatetimeIndex 对 象 ， 频 率 人 参数 freq 有 
多 种 选择 。 表 $-3 列 出 了 其 所 有 选项 。 


表 5-3 date_range () 因数 的 频率 参数 值 

























































































别名 描述 
B 交易 日 
C 自 定义 交易 日 (试验 性 ) 
D 日 历 日 
wW 每 周 
M 每 月 底 

BM 每 月 最 后 一 个 交易 日 
MS 月 初 

BMS 每 月 第 一 个 交易 日 
Q 季度 末 

BQ 每 季度 最 后 一 个 交易 日 
Qs 季度 初 

BOS 每 季度 第 一 个 交易 日 
A 每 年 底 
BA 每 年 最 后 一 个 交易 日 
AS 每 年 初 

BAS 每 年 第 一 个 交易 日 
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在 茶 些 情况 下 ， 以 ndarray 对 象 的 形式 访问 原始 数据 是 有 好 处 的 。values 








接 访 问 的 方式 : 





5.2 


df.values 
array ([[-1.74976547, 
0.98132079, 
-0.18949583, 
-0.58359505, 
=0 531280387 


1.61898166, 
0.18451869, 
.32623806, 
. 75635231, 


np.array (df) 

.74976547, 
0.98132079, 
.18949583, 
.58359505, 
.53128038, 
1.61898166, 
0.18451869, 
.32623806, 
79635231; 


array ([ 





数组 和 DataFrame 


OO OO OO 


OoOOOrRrrF OOO FO 


-3426804 , 
-51421884, 
-25500144, 
-81684707, 
-02973269, 
«04 
-9370822 , 
-05567601, 
-81645401, 


160517, 


-3426804 , 
-51421884, 
-25500144, 
-81684707, 
-02973269, 
-54160517, 
-9370822 , 
-05567601, 
-81645401, 





别名 描述 
H 每 小 时 
T 每 分 钟 
S 每 秒 
L 毫秒 
U 微 秒 





1.1530358 , 
0.22117967, 
-0.45802699, 
0.67272081, 
-0.43813562, 
-0.25187914, 
0.73100034, 
0.22239961, 
0.75044476, 


1.1530358 , 
0.22117967, 
-0.45802699, 
0.67272081, 
-0.43813562, 
-0.25187914, 
0.73100034, 
0.22239961, 
0.75044476, 








.25243604], 
.07004333], 
0.43516349], 
-0.10441114], 
-1.11831825], 
-0.84243574], 
1.36155613], 
-1.443217 ], 
-0.45594693 





.25243604], 
.07004333], 
0.43516349], 
-0.10441114], 
-1.11831825], 
-0.84243574], 
1.36155613], 
-1.443217 ], 
-0.45594693 








属性 提供 


直 





通常 可 以 从 一 个 ndarray 对 象 生 成 DataFrame 对 象 。 也 可 以 通过 
NumPy 的 np.array 函数 或 DataFrame 类 的 values 属性 ， AA 
DataFrame 对 象 生 成 ndarray 对 象 。 


基本 分 析 


和 NumPy 的 ndarray 类 一 样 ，pandas 的 DataFrame 类 有 多 个 便利 的 内 建 方法 。 首 
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先 考虑 info () 和 describe () WE: 








In [40]: df.info() © 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 9 entries, 2019-01-31 to 2019-09-30 
Freq: M 
Data columns (total 4 columns): 
Nol 9 non-null float64 
No2 9 non-null float64 
No3 9 non-null float64 
No4 9 non-null float64 
dtypes: float64 (4) 
memory usage: 360.0 bytes 
In [41]: df.describe() @ 
Out [41]: Nol No2 No3 No4 
Count 9.000000 9.000000 9.000000 9.000000 
Mean -0.150212 0.701033 0.289193 -0.387788 
Std 0.988306 0.457685 0.579920 0.877532 
Min -1.749765 0.055676 -0.458027 -1.443217 
25% -0.583595 0.342680 -0.251879 -1.070043 
50% -0.326238 0.816454 0.222400 -0.455947 
715% 0.184519 0.937082 0.731000 -0.104411 
max 1.618982 1.541605 1.153036 1.361556 
O 提供 关于 数据 、 列 和 索引 的 元 信息 。 
o 提供 有 用 的 每 列 汇总 统计 ( 对 于 数值 数据 ) 信息 。 
此 外 ， 你 可 以 轻松 地 求 得 按 列 / 行 计算 的 总 和 、 平 均值 和 累计 总 和 : 


In [43]: df.sum() © 

Out [43]: Nol -1.351906 
No2 6.309298 
No3 2.602739 
No4 -3.490089 
dtype: float64 

In [44]: df.mean() @ 

Out [44]: Nol -0.150212 
No2 0.701033 
No3 0.289193 
No4 -0.387788 
dtype: float64 

In [45]: df.mean (axis=0) @ 

Out [45]: Nol -0.150212 
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In 


In 


[46]: 
Out [46]: 


[47]: 
Out [47]: 


o 列 总 和 。 
@ 列 均值 。 
© 行 均值 。 
O 列 累计 总 和 (从 第 一 个 索引 位 置 起 )。 
DataFrame 对 象 也 能 理解 为 NumPy 通用 男 数 ， 这 与 预期 相符 : 











No2 0.701033 
No3 0.289193 
No4 -0.387788 
dtype: float64 
df.mean(axis=1) ® 
2019-01-31 -0.126621 
2019-02-28 0.161669 
2019-03-31 0.010661 
2019-04-30 0.200390 
2019-05-31 -0.264500 
2019-06-30 0.516568 
2019-07-31 0.803539 
2019-08-31 -0.372845 
2019-09-30 0.088650 
Freq: M, dtype: float64 
df.cumsum() @ 

Nol 
2019-01-31 -1.749765 0 
2019-02-28 -0.768445 0 
2019-03-31 -0.957941 1 
2019-04-30 -1.541536 1 
2019-05-31 -2.072816 2 
2019-06-30 -0.453834 4 
2019-07-31 -0.269316 5 
2019-08-31 -0.595554 5 
2019-09-30 -1.351906 6 




















No2 No3 
-342680 1.153036 
-856899 1.374215 
-111901 0.916188 
-928748 1.588909 
-958480 1.150774 
-500086 0.898895 
-437168 1.629895 
-492844 1.852294 





- 309298 2.602739 


No4 
.252436 
.322479 
.887316 
991:727 
.110045 
.952481 
“5990925 
.034142 
.490089 





In [48]: np.mean (df) © 
Out [48]: Nol -0.150212 
No2 0.701033 
No3 0.289193 
No4 -0.387788 
dtype: float64 
In [49]: np.log(df) @ 
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Out [49]: 


In [50]: 
Out [50]: 


in [51] 
Out [51]: 


In, [52] 
Out [52]: 


@ 列 均值 。 


@ 每 个 元 素 的 自然 对 数 ; 显示 警告 信息 ,但 计算 继续 进行 ， 得 到 多 个 NaN 值 。 

















Nol No2 
2019-01-31 NaN -1.070957 
2019-02-28 -0.018856 -0.665106 — 
2019-03-31 NaN -1.366486 
2019-04-30 NaN -0.202303 - 
2019-05-31 NaN 0.029299 
2019-06-30 0.481797 0.432824 
2019-07-31 -1.690005 -0.064984 - 
2019-08-31 NaN -2.888206 - 
2019-09-30 NaN -0.202785 - 
np.sqrt (abs (df)) © 

No1 No2 
2019-01-3 1.322787 0.585389 
2019-02-28 0.990616 0.717091 
2019-03-31 0.435311 0.504977 
2019-04-30 0.763934 0.903796 
2019-05-31 0.728890 1.014757 
2019-06-30 1.272392 1.241614 
2019-07-31 0.429556 0.968030 
2019-08-31 0.571173 0.235958 
2019-09-30 0.869685 0.903578 
np.sqrt (abs (df)) .sum() @ 
Nol 7.384345 
No2 7.075190 
No3 6.397719 
No4 7.538440 
dtype: float64 
100 * df + 100 © 

Nol No2 

2019-01-31 -74.976547 134.268040 
2019-02-28 198.132079 151.421884 
2019-03-3 81.050417 125.500144 
2019-04-30 41.640495 181.684707 
2019-05-3 46.871962 202.973269 
2019-06-30 261.898166 254.160517 
2019-07-31 118.451869 193.708220 
2019-08-3 67.376194 105.567601 
2019-09-30 24.364769 181.645401 





O 每 个 元 素 绝对 值 的 平方 根 。 








O OO OF 





No3 No4 
- 142398 NaN 
- 508780 NaN 
NaN -0.832033 
396425 NaN 
NaN NaN 
NaN NaN 
.313341 0.308628 
1503279 NaN 
.287089 NaN 
No3 No4 
-073795 0.502430 
-470297 1.034429 
-676777 0.659669 
-820196 0.323127 
-661918 1.057506 
-501876 0.917843 
-854986 1.166857 
-471593 1.201340 
-866282 0.675238 
No3 No4 
215.303580 74.756396 
122.117967 -7.004333 
54.197301 143.516349 
167.272081 89.558886 
56.186438 -11.831825 
74.812086 15.756426 
173.100034 236.155613 
122.239961 -44.321700 
175.044476 54.405307 
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@ 按 列 求 均值 。 
@ 数值 数据 的 线性 变换 。 
NumPy 通用 函数 


一 般 来 说 , Æ NumPy 通用 函数 适用 于 ndqarray 对 象 的 所 有 情况 下 ， 都 
可 以 将 这 些 函 数 应 用 到 包含 相同 数据 的 pandas 的 DataFrame 对 象 。 





pandas 有 相当 强 的 容错 能 力 ， 它 可 以 捕 提 错误 ， 在 对 应 数学 运算 失败 时 放 和 NaN 值 。 不 
仅 如 此 ， 正 如 前 面 已 经 展示 的 ， 在 许多 情况 下 ， 它 还 可 以 将 这 些 不 完整 的 数据 集 当 成 完 
整数 据 集 来 使 用 。 这 种 做 法 很 方便 ， 因 为 现实 中 不 完整 数据 集 往往 比 人 们 预想 的 要 多 。 











5.3 基本 可 视 化 








如 果 数 据 存储 在 DataFrame 对 象 中 , 那么 数据 图 表 的 绘制 通常 只 需要 一 行 代码 ( 见 图 5-1 )。 

=e Nol 

6 —— No2 
—- No3 
—— No4 

4 

2 

0 

-2 
Jan Feb Mar Apr May Jun Jul Aug Sep 
2019 











5-1 DataFrame 对 象 的 折线 图 


In [53]: from pylab import plt, mpl © 
plt.style.use('seaborn') © 
mpl.rcParams['font.family'] = 'serif' O 
smatplotlib inline 


In [54]: df.cumsum() .plot (lw=2.0, figsize=(10, 6)); @ 
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@ 定制 绘图 样式 。 


@ 绘制 4 列 累计 总 和 的 折线 图 。 


基本 上 ，pandas 提供 





ett. plot () 方法 的 参数 如 表 5-4 所 示 。 


表 5-4 ”plot() 方 法 参数 


了 专 为 DataFrame 对 象 设计 的 matplotlib (参见 第 7 章 ) 包 





















































































































































































































































x 标签 /位 置 ， 默 认 None 只 在 列 值 为 x 刻度 时 使 用 

y 标签 /位 置 ， 默认 None 只 在 列 值 为 x 刻度 时 使 用 

subplots 布尔 值 ， 默 认 False 子 图 中 的 绘图 列 

sharex 布尔 值 ， 默 认 True 共用 x 轴 

sharey 布尔 值 ， 默 认 False 共用 y 轴 

EEEN 布尔 值 ， 黑 认 True a rame. index {EX x 

stacked 布尔 值 ， 默 认 False he ( 只 用 于 柱状 图 ) 

sort_columns | 布尔 值 ， 默 认 False 在 绘图 之 前 将 列 按 字母 顺序 排列 

title 字符 串 ， 默 认 None 图 表 标 题 

grid 布尔 值 ， 默 认 False 水 平和 垂直 网 格 线 

legend 布尔 值 ， 默 认 True 标签 图 例 

ax matplotlib 轴 对 象 绘图 使 用 的 matplotlib 轴 对 象 

style 字符 串 或 者 列表 /字典 绘图 线形 ( 每 列 ) 

kind line/bar/barh/kde/density 图 表 类 型 

logx 布尔 值 ， 默 认 False X 轴 的 对 数 刻 度 

logy 布尔 值 ， 默 认 False y 轴 的 对 数 刻度 

xticks 序列 ， 默认 Index x 轴 刻度 

yticks 序列 ， 默 认 values y 轴 刻度 

xlim 二 元 组 ， 列 表 x 轴 界 限 

ylim 二 元 组 ， 列 表 y 轴 界 限 

rot 整数 ， 默 认 None 旋转 x 刻度 

secondary_y 布尔 值 /序列 ， 默 认 False 第 二 个 > 轴 

mark_right 布尔 值 ， 默 认 True 第 二 个 y 轴 自 动 设置 标签 

colormap 字符 串 / 颜 色 映射 对 象 ， 默 认 None 用 于 绘图 的 颜色 映射 

kwds 关键 字 传递 给 matplotlib 选项 
再 举 个 例子 ， 考 虑 相同 数据 的 柱状 图 ( 见 图 5-2 ): 
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mm Nol 
mm No2 


| hl | 


0:00:00 > 8.0000 ， , 00:00:00 30 00:00:00 5, 00:00:00 9 00:00 ae , 00:00:00 90.00 a 5 00:00:09 
5 3-093" 
19 


1.0) 4 3 
20190" aq19 933 01%" or 2019.05” 2019.06” 3919-07” 4919-08" 








图 5-2 DataFrame 对 象 的 柱状 图 


In [55]: df.plot.bar(figsize=(10, 6), rot=15); © 
# df.plot (kind='bar', figsize=(10, 6)) @ 


@ plot .bar() 绘 制 柱状 图 。 
@ 替代 语法 : 使 用 kind 参数 改变 绘图 类 型 。 





5.4 Series 类 


迄今 为 止 ， 本 章 主要 介绍 了 pandas 的 DataFrame X, Series 是 pandas 自 带 的 男 一 
个 重要 的 类 。 它 的 特点 是 只 有 一 列 数据 。 从 这 个 意义 上 讲 , 它 是 DataFrame 类 的 特例 ， 
两 者 之 间 有 许多 共同 特性 和 功能 能 , 但 不 完全 相同 。 从 多 列 的 DataFrame 对 象 上 选取 一 
列 ， 可 以 得 到 Series 对 象 : 


In [56]: type(df) 
Out [56]: pandas.core.frame.DataFrame 








In [57]: S = pd.Series(np.linspace(0, 15, 7), name='series') 








In [S58 六 

Out [58]: 0 0.0 
1 2D 
2 5.0 
3 ares) 
4 10.0 
5 12.3 
6 15.0 
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Name: series, dtype: float64 














In [59 type (S) 
Out [59 pandas.core.series.Series 
In [60 s = df['Nol'] 
In [61 S 
Out [61 2019-01-31 -1.749765 
2019-02-28 0.981321 
2019-03-31 -0.189496 
2019-04-30 -0.583595 
2019-05-31 -0.531280 
2019-06-30 1.618982 
2019-07-31 0.184519 
2019-08-31 -0.326238 
2019-09-30 -0.756352 
Freq: M, Name: Nol, dtype: float64 
In [62 type (s) 
Out [62 pandas.core.series.Series 
DataFrame 的 主要 方法 也 可 用 于 Series 对 象 , 我 们 以 mean Fill plot 方法 为 例 ( 见 图 5-3 ): 
In [63 s.mean () 
Out [63 -—0.15021177307319458 
In [64 s.plot (lw=2.0, figsize=(10, 6)); 
1.5 
1.0 
0.5 
0.0 
-0.5 
-1.0 
1.5 
Jan Feb Mar Apr May Jun Jul Aug Sep 
2019 








图 5-3 Series 对 象 的 折线 图 
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5.5 GroupBy 操作 
pandas 具备 强大 而 灵活 的 分 组 功能 ， 工 作 方式 类 似 于 SQL 中 的 分 组 和 Microsoft Excel 
中 的 透视 表 。 为 了 进行 分 组 ， 我 们 添加 一 列 ， 表 示 对 应 索引 数据 所 属 的 季度 : 


Ei” L651 “df ["“OQuarter"] = (OL; Oly 701", "02", +902", 
1O2 OSG. TOS; "O3] 




















df 

Out [65]: Nol No2 No3 No4 Quarter 
2019-01-31 -1.749765 0.342680 1.153036 -0.252436 Q1 
2019-02-28 0.981321 0.514219 0.221180 -1.070043 Q1 
2019-03-31 -0.189496 0.255001 -0.458027 0.435163 Q1 
2019-04-30 -0.583595 0.816847 0.672721 -0.104411 Q2 
2019-05-31 -0.531280 1.029733 -0.438136 -1.118318 Q2 
2019-06-30 1.618982 1.541605 -0.251879 -0.842436 Q2 
2019-07-31 0.184519 0.937082 0.731000 1.361556 Q3 
2019-08-31 -0.326238 0.055676 0.222400 -1.443217 Q3 
2019-09-30 -0.756352 0.816454 0.750445 -0.455947 Q3 

现在 ,我 们 可 以 根据 Quarter 列 分 组 ， 并 输出 单独 组 的 统计 量 : 





In [66]: groups = df.groupby('Quarter') © 


In [67]: groups.size() @ 
Out [67]: Quarter 


Q1 3 
Q2 3 
Q3 3 


dtype: int64 


In [68]: groups.mean() ® 

Out [68]: Nol No2 No3 No4 

Quarter 
Ql -0.319314 0.370634 0.305396 -0.295772 
Q2 0.168035 1.129395 -0.005765 -0.688388 
Q3 -0.299357 0.603071 0.567948 -0.179203 


In [69]: groups.max() @ 


Out [69]: Nol No2 No3 No4 
Quarter 
Ql 0.981321 0.514219 1.153036 0.435163 
Q2 1.618982 1.541605 0.672721 -0.104411 
Q3 0.184519 0.937082 0.750445 1.361556 
In [70]: groups.aggregate([min, max]).round(2) © 
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Out [70]: Nol No2 No3 No4 
Min max min max min max min max 
Quarter 
Q1 -1.75 0.98 0.26 0.51 -0.46 1.15 -1.07 0.44 
Q2 -0.58 1.62 0.82 1.54 -0.44 0.67 -1.12 -0.10 
Q3 -0.76 0.18 0.06 0.94 0.22 0.75 -1.44 1.36 
@ 根据 Quarter 列 分 组 。 
@ 给 出 每 个 分 组 的 行 数 。 
© 给 出 每 列 的 均值 。 
@ 给 出 每 列 的 最 大 值 。 
© 给 出 每 列 的 最 小 值 和 最 大 值 。 
分 组 也 可 以 在 多 列 上 进行 。 为 此 , 我 们 添加 另 一 列 ,表示 索引 日 期 的 月 份 是 奇数 还 是 偶数 : 
In [71]: df['Odd_Even'] = ['Odd', 'Even', 'Odd', 'Even', 'Odd', 'Even', 
'Odd', 'Even', 'Odd'] 
In [72]: groups = df.groupby(['Quarter', 'Odd_Even']) 
In [73]: groups.size() 
Out[73]: Quarter Odd_Even 
Q1 Even 1 
Odd 2 
Q2 Even 2 
Odd 1 
Q3 Even 1 
Odd 2 
dtype: int64 
In [74]: groups[['Nol', 'No4']].aggregate([sum, np.mean]) 
Out [74]: Nol No4 
Sum mean sum mean 
Quarter Odd_Even 
Q1 Even 0.981321 0.981321 -1.070043 -1.070043 
Odd -1.939261 -0.969631 0.182727 0.091364 
Q2 Even 1.035387 0.517693 -0.946847 -0.473423 
Odd -0.531280 -0.531280 -1.118318 -1.118318 
Q3 Even -0.326238 -0.326238 -1.443217 -1.443217 
Odd -0.571834 -0.285917 0.905609 0.452805 





对 pandas 和 DataFrame 对 象 使 用 的 介绍 到 此 结束 ， 下 面 将 这 组 工具 应 用 到 现实 世界 
的 金融 数据 中 。 
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5.6 ”复杂 选择 


数据 选择 往往 是 通过 列 值 上 的 条 件 公式 实现 的 ， 也 可 以 通过 符合 逻辑 的 方式 来 组 合 多 
个 条 件 。 考 虑 如 下 数据 集 。 


In [75]: data = np.random.standard_normal((10, 2)) 0 




















In [76]: df = pd.DataFrame (data, columns=['x', 'y']) @ 


In [77]: df.info() @ 
<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 10 entries, 0 to 9 
Data columns (total 2 columns): 
x 10 non-null float64 
Y 10 non-null float64 
dtypes: float64 (2) 
memory usage: 240.0 bytes 


In [78]: df.head() © 

Out [78]: x y 
1.189622 -1.690617 
-1.356399 -1.232435 
.544439 -0.668172 
0.007315 -0.612939 
1.299748 -1.733096 


B® WN FP OO 
l 
jo) 


In [79]: df.tail() @ 

Out [79]: x y 
-0.983310 0.357508 
-1.613579 1.470714 

.188018 -0.549746 

-0.940046 -0.827932 

0.108863 0.507810 


@ 包含 标准 正 态 分 布 随 机 数 的 ndarray WA, 
@ 包含 相同 随机 数 的 DataFrame WR. 

© 通过 head 方法 取得 前 5 行 。 

O 通过 tail 方法 取得 最 后 5 行 。 

下 面 的 代码 说 明了 Python 比较 运算 符 和 人 逻辑 运算 符 在 两 列 值 上 的 应 用 : 


In [80]: df['x'] > 0.5 © 


AGO OY i 
l 
þat 
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Out [80]: 


False 
Name: x, dtype: bool 


In [81]: (df['x'] > 0) & (df['y'] < 0) @ 


Out [81]: True 








In [82]: (df['x'] > 0) | (df['y'] < 0) © 
Out [82]: 0 True 
1 True 
2 True 
3 True 
4 True 
5 False 
6 False 
a True 
8 

9 


True 





True 


dtype: bool 


@ 检查 x 列 的 值 是 否 大 于 0.5。 
O 检查 是 否 x 列 的 值 为 正 且 y 列 的 值 为 负 。 
© 检查 是 否 x 列 的 值 为 正 或 y 列 的 值 为 负 。 


利用 得 到 的 布尔 型 Series 对 象 ， 就 可 以 很 容易 地 实现 复杂 数据 T) 的 选择 。 男 外 ， 
也 可 以 使 用 query 方法 并 以 字符 串 对 象 的 形式 来 传递 条 件 : 
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In [83]: df[df['x'] > 0] © 
Out [83]: x Y 
O 1.189622 -1.690617 
3 0.007315 -0.612939 
4 1.299748 -1.733096 
9 0.108863 0.507810 
In [84]: df.query('x > 0') © 
Out [84]: x y 
0 1.189622 -1.690617 
3 0.007315 -0.612939 
4 1.299748 -1.733096 
9 0.108863 0.507810 
In [85]: df[(df['x'] > 0) & (df['y'] < 0)] @ 
Out [85]: x Y 
O 1.189622 -1.690617 
3- 04007315 ~—0.:612939 
4 1.299748 -1.733096 
In [86]: df.query('x > 0 & y < 0') @ 
Out [86]: x Y 
O 1.189622 -1.690617 
3 0.007315 -0.612939 
4 1.299748 -1.733096 
In [87]: df[(df.x > 0) | (df.y < 0)] © 
Out [87]: x Yy 
0 1.189622 -1.690617 
1 -1.356399 -1.232435 
2 -0.544439 -0.668172 
3 0.007315 -0.612939 
4 1.299748 -1.733096 
7 -1.188018 -0.549746 
8 -0.940046 -0.827932 
9 0.108863 0.507810 
@ 所 有 第 x 列 的 值 大 于 0.5 的 行 。 
@ 所 有 第 x 列 的 值 为 正 且 y 的 列 值 为 负 的 行 。 
© 所 有 第 x 列 的 值 为 正 或 y 的 列 值 为 负 的 行 ( 各 列 通过 对 应 属性 访问 )。 
比较 运算 符 也 可 以 一 次 性 应 用 到 整个 DataFrame 对 象 上 : 
In [88]: df > 0 © 
Out [88]: x y 
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False False 


© OID PB WBN PO 
Faj 
w 
0) 
o 
J 
H 
G 
M 





True True 


In [89]: df[df > 0] @ 


Out [89]: x Y 
0 1.189622 NaN 
1 NaN NaN 
2 NaN NaN 
3 0.007315 NaN 
4 1.299748 NaN 
5 NaN 0.357508 
6 NaN 1.470714 
7 NaN NaN 
8 NaN NaN 
9 0.108863 0.507810 


@ DataFrame 对 象 中 的 哪些 值 为 正 ? 
@ 选择 所 有 满足 要 求 的 值 ， 并 将 其 他 值 设 为 NaN。 


5.7 联接 、 连 接 和 合并 


本 节 简 单 介绍 连接 DataFrame 对 象形 式 的 两 个 简单 数据 集 的 不 同方 法 。 这 两 个 简单 数 
据 集 如 下 所 示 : 
In [90]: dfl = pd.DataFrame(['100', '200', '300', '400'], 
index=['a', 'b', Tel; 'd'], 


columns=['A"',]) 





? Ty 


In [91]: dfl 


Out [91]: A 
a 100 
b 200 
c 300 
d 400 


In [92]: df2 = pd.DataFrame(['200', '150', '50'], 
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In [93]: d£2 
Out [93]: 
f 200 
b 150 
d 50 
5.7.1 联接 


index=['f', 'b', 'd'], 
columns=['B',]) 

















联接 (Concatenation ) 或 者 附加 〈Appending ) 本 质 上 指 的 是 将 一 个 DataFrame 对 象 
中 的 行 添加 到 另 一 个 DataFrame 对 象 上 ， 这 可 通过 append 方法 或 者 pd.concat 


函数 完成 。 需 要 认真 考虑 的 是 索引 值 的 处 型 


In [94]: 





Out [94]: A 


100 
200 
300 
400 
NaN 
NaN 
NaN 


aT nraaoso yw 


Out [95]: A 


100 
200 
300 
400 
NaN 
NaN 
NaN 


Nn OF WN FP OO 


Out [96]: A 


100 
200 
300 
400 
NaN 
NaN 
NaN 


a°Tnrads wo 


dfl.append(df2, 


B 
NaN 
NaN 
NaN 
NaN 
200 
150 

50 


dfl.append(df2, 


B 
NaN 
NaN 
NaN 
NaN 
200 
150 

50 


6]: pd.concat ((dfl1, 


B 
NaN 
NaN 
NaN 
NaN 
200 
150 

50 


pd.concat ( (df1, 








方法 : 





sort=False) © 


ignore_index=True, sort=False) © 





sort=False) © 


ignore_index=True, sort=False) @ 
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Out [97]: A B 


0 100 NaN 
1 200 NaN 
2 300 NaN 
3 400 NaN 
4 NaN 200 
5 NaN 150 
6 NaN 50 


O 将 af2 的 数据 附加 到 dfl 中 作为 新 行 。 
@ 完成 同样 的 工作 ， 但 忽略 索引 。 

@ 与 第 一 个 附加 操作 效果 相同 。 

@ 与 第 二 个 附加 操作 效果 相同 。 


5.7.2 连接 


连接 两 个 数据 集 时 ，DataFrame 对 象 的 顺序 很 重要 。 只 有 第 一 个 DataFrame WAN 
索引 值 被 使 用 ， 这 种 默认 行为 称 为 左 连 接 (eft join ): 


In [98]: dfl.join(df2) © 




















Out [98]: A B 
a 100 NaN 
b 200 150 
c 300 NaN 
d 400 50 


In [99]: df2.join(df1) @ 


Out [99]: B A 
f 200 NaN 
b 150 200 
d 50 400 


@ af1 的 索引 值 有 意义 。 
@ df2 的 索引 值 有 意义 。 
共有 4 种 不 同 的 连接 方法 ， 每 种 方法 都 导致 索引 值 和 对 应 数据 行 的 不 同 处 理 行 为 : 


In [100]: dfl.join(df2, how='left') 0 








Out [100]: A B 
a 100 NaN 
b 200 150 
c 300 NaN 
d 400 50 


In [101]: df1.join(df2, how='right') @ 
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Out [101]: A B 
f NaN 200 
b 200 150 
d 400 50 


In [102]: df1l.join(df2, how='inner') © 


Out [102]: A B 
b 200 150 
d 400 50 


In [103]: df1.join(df2, how='outer') @ 





Out [103]: A B 
a 100 NaN 
b 200 150 
c 300 NaN 
d 400 50 
f NaN 200 





O 左 连接 是 默认 操作 。 

@ 右 连 接 相 当 于 颠倒 了 DataFrame 对 象 的 顺序 。 

© 内 连接 只 保留 在 两 个 索引 中 都 存在 的 索引 值 。 

O 外 连接 保留 两 个 索引 中 的 所 有 索引 值 。 

连接 也 可 以 基于 空 的 DataFrame 对 象 。 在 这 种 情况 下 , 列 按 顺 序 被 创建 , 这 与 左 连接 类 似 : 


In [104]: df = pd.DataFrame () 
In [105]: df['A'] = dfl['A'] © 


In [106]: df 


Out [106]: A 
a 100 
b 200 
G 300 
d 400 
In [107]: df['B'] = df2 @ 


In [108]: df 


Out [108]: A B 
a 100 NaN 
b 200 150 
c 300 NaN 
d 400 50 
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@ df1 为 第 一 列 A。 
@ df2 为 第 二 列 Bo 
使 用 字典 来 组 合 数据 集 可 以 得 到 类 似 于 外 连接 的 结果 ， 因 为 列 是 同时 创建 的 : 


In [109]: df = pd.DataFrame({'A': df1['A'], 'B': df2['B']}) © 











In [110]: df 


Out [110]: A B 
a 100 NaN 
b 200 150 
c 300 NaN 
d 400 50 
f NaN 200 
O DataFrame 对 象 的 各 列 用 作 字典 对 象 的 值 。 
5.7.3 合并 





连接 操作 根据 待 连接 的 DataFrame 对 象 的 索引 进行 ,而 合并 操作 通常 在 两 个 数据 集 共 
享 的 某 列 上 进行 。 为 此 ， 在 两 个 原始 的 DataFrame 对 象 上 添加 一 个 新 列 C: 
In [111]: c = pd.Series([250, 150, 50], index=['b', 'd', 'c']) 
dafi ['C'] = c 
df2['C'] = c 





In [112]; ‘df1 


Out [112]: A C 
a 100 NaN 
b 200 250.0 
c 300 50.0 
d 400 150.0 


In [113]: df2 

Out [113]: B € 
f 200 NaN 
b 150 250.0 
d 50 150.0 


默认 情况 下 ， 这 种 合并 操作 根据 单一 共享 列 Cc 进行 。 但 也 存在 其 他 可 能 ， 例 如 外 
合并 

In [114]: pd.merge (dfl, df2) © 

Out [114]: A Cc B 


0 100 NaN 200 
1 200 250.0 150 
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H 
7 





2 400 150.0 
In [115]: pd.merge (df1, 
Out [115]; A Cc 
100 NaN 
200 250.0 
400 150.0 
In [116]: pd.merge(dfl, 
Out [116]: A Cc 
0 100 NaN 
1 200 250.0 
2 300 50.0 
3 400 150.0 

耻 认 合并 根据 C 列 进行 。 








50 


df2, 
B 
200 
150 
50 


df2, 
B 
200 
150 
NaN 
50 


on="'C') 


Oo 


how='outer')@ 


@ 也 可 以 进行 外 合并 ， 保 留 所 有 数据 行 。 
可 用 的 合并 操作 类 型 还 有 很 多 ， 下 面 的 代码 演示 了 其 中 的 几 种 : 


In [117]: 
Out [117]: 
In [118]: 
Out [118]: 
In [119]: 
Out [119]: 
in, [120]: 
Out [120]: 
in [LALy3 


pd.merge(dfl1, 


A 
0 200 


C x 
250.0 


pd.merge (df1, 


A 
100 
200 
300 
400 
NaN 
NaN 


aw WN FO 


C_x 
NaN 
250.0 
50.0 
150.0 
NaN 
NaN 


pd.merge(dfl1, 


A 
b 200 
d 400 


C_x 
250.0 
150.0 


pd.merge(dfl, 


A 

£ 100 
200 

d 400 


Cc 
NaN 
250.0 
150.0 


pd.merge(dfl1, 


df2, 
B 
200 


af2:, 
B 
NaN 
200 
NaN 
NaN 
150 
50 


200 
150 
50 


df2, 


left_on='A', 


C_y 
NaN 


left_on='A', 


Cy 
NaN 
NaN 
NaN 
NaN 
250.0 
150.0 


left_index=True, 


on='C', 


on='C', 


left_index=True) 


right_index=True) 


right_on='B"') 


right_on='B', 


how='outer') 


right_index=True) 
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Out [121]: A Cc B 
a 100 NaN 200 
b 200 250.0 150 
d 400 150.0 50 


In [122]: pd.merge(dfl, df2, on='C', left_index=True, 
Out [122]: A G B 

b 200 250.0 150 

d 400 150.0 50 


5.8 性 能 特征 


right_index=True) 


本 章 的 许多 例子 说 明 ， 用 pandas 实现 同一 个 目标 往往 有 多 种 选择 。 本 节 以 按 元 素 加 总 





两 列 数 值 为 例 来 这 些 选 择 进 行 对 比 。 首 先 用 NumPy 生成 数据 集 





In [123]: data = np.random.standard_normal((1000000, 2)) © 


In [124]: data.nbytes © 
Out [124]: 16000000 


In [125]: df = pd.DataFrame(data, columns=['x', 'y' 











In [126]: df.info() @ 
<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 1000000 entries, 0 to 999999 
Data columns (total 2 columns): 
X 1000000 non-null float64 
Y 1000000 non-null float64 
dtypes: float64 (2) 
memory usage: 15.3 MB 


@ 包含 随机 数 的 ndarray WR. 
@ 包含 随机 数 的 DataFrame 对 象 。 
其 次 ， 用 于 实现 手边 任务 的 一 些 选择 的 功能 的 性 能 还 不 错 : 


In [127]: %time res = df['x'] + df['y'] © 











1) @ 


CPU times: user 7.35 ms, sys: 7.43 ms, total: 14.8 ms 


Wall time: 7.48 ms 


In [128]: res[:3] 

Out [128]: 0 0.387242 
1 -0.969343 
2 -0.863159 
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dtype: float64 


In [129]: $time res = df.sum(axis=1) @ 
CPU times: user 130 ms, sys: 30.6 ms, total: 161 ms 
Wall time: 101 ms 


In [130]: res[:3] 

Out [130]: 0 0.387242 
1 -0.969343 
2 -0.863159 
dtype: float64 


In [131]: %time res = df.values.sum(axis=1) © 
CPU times: user 50.3 ms, sys: 2.75 ms, total: 53.1 ms 
Wall time: 27.9 ms 


In [132]: res[:3] 
Out [132]: array([ 0.3872424 , -0.96934273, -0.86315944]) 


In [133]: %time res = np.sum(df, axis=1) @ 
CPU times: user 127 ms, sys: 15.1 ms, total: 142 ms 
Wall time: 73.7 ms 


In [134]: res[:3] 

Out [134]: 0 0.387242 
1 -0.969343 
2 -0.863159 
dtype: float64 


In [135]: %time res = np.sum(df.values, axis=1) © 
CPU times: user 49.3 ms, sys: 2.36 ms, total: 51.7 ms 
Wall time: 26.9 ms 


In [136]: res[:3] 
Out [136]: array([ 0.3872424 , -0.96934273, -0.86315944]) 


直接 使 用 列 (Series MR) 是 最 快 的 方法 。 

调用 DataFrame 对 象 的 sum 方法 来 计算 总 和 。 
调用 ndarray WRAY sum 方法 来 计算 总 和 。 

调用 DataFrame 对 象 的 np . sum 方法 来 计算 总 和 。 
调用 ndarray 对 象 的 np . sum 方法 来 计算 总 和 。 











oo © © © 
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=] 
P 





The application of the eval() 
be installed. 
In [137]: 


method requires the numex 
Stime res = 
CPU times: 
Wall time: 


df.eval('x + y') © 
user 25.5 ms, 17.7 ms, total: 


22.5 ms 


sys: 


In [138]: 
Out [138]: 


res[:3] 
0 0.387242 
1 -0.969343 
2 -0.863159 
dtype: float64 
In [139]: $time res = df.apply (lambda row: row['x'] 
CPU times: 
Wall time: 


+ row[ 
user 19.6 s, sys: 83.3 ms, total: 


TFS 


In [140]: 
Out [140]: - 387242 
- 969343 
- 863159 


dtype: float64 








O eval 是 专门 月 
@ 最 慢 的 选择 是 逐 行使 月 





























明智 的 选择 





一 种 。 在 上 面 这 个 简单 的 例子 里 ， 不 同 选择 的 执行 
HEM, 


5.9 结语 
工具 


pandas 是 强大 的 数据 分 析 工 具 ， 
DataFrame 类 特别 适合 于 处 到 
化 的 ,这 不 仅 可 以 得 到 和 NumPy 类 似 的 简洁 代码 ， 而 且 还 可 以 得 到 高 怕 











HE 
x 








1 要 想 使 用 eval 方法 需 





安装 numexpr 软件 包 。 一 一 原 注 





后 ， 还 有 两 种 选择 可 以 计算 元 素 和 ， 它 们 分 别 基于 eval 和 apply 方法 : 


pr package to 


43.2 ms 


@ 


'y'], axis=1) 
19.7 s 


有 于 计算 (复杂 ) 数值 表达 式 的 方法 ， 可 以 直接 处 理 数据 列 。 
H apply 方法 ， 这 就 像 在 Python 级 别 上 循环 访问 所 有 行 。 


pandas 常常 为 实现 统一 目标 提供 多 个 选择 . 如 果 不 确定 使 用 哪 一 个 ， 
那么 在 时 间 是 关键 因素 的 情况 下 比较 各 种 选择 ， 以 选择 性 


Ab E 


能 最 好 的 
时 间 相 差 好 几 个 


已 经 成 为 所 谓 的 PyData 栈 的 核心 软件 包 。 它 的 
任何 类 型 的 表格 数据 。 这些 对 象 上 的 大 部 分 操作 是 向 量 





EÉ köh, pandas 
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能 够 很 方便 地 处 理 不 完整 数据 集 (NumPy 做 不 到 这 一 点 )。pandas 和 DataFrame 类 将 是 
本 书后 续 多 个 章节 的 核心 ， 在 必要 时 将 使 用 并 介绍 它们 的 更 多 特性 。 





5.10 延伸 阅读 

pandas 是 一 个 开源 项 目 ， 你 既 可 以 阅读 在 线 文档 ， 也 可 以 下 载 其 PDF 版 本 。 官 网 上 还 
提供 了 一 些 附加 资源 。 

至 于 NumPy， 我 们 建议 的 pandas 参考 书 如 下 。 

e McKinney, Wes (2017). Python for Data Analysis. Sebastopol, CA: O’ Reilly. 





e VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’ Reilly. 
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WUUUUU 





软件 工程 的 目的 是 控制 复杂 度 ， 而 不 是 制造 复杂 度 。 

一 一 帕 梅 拉 … 扎 维 

面向 对 象 编程 (OOP) 是 当今 非常 流行 的 编程 范 型 。 这 种 方法 若 被 正确 使 用 ， 能 够 提 

供 其 他 编程 范 型 ( 如 过 程式 编程 ) 无 法 提供 的 众多 优势 。 在 许多 情况 下 ，OOP 好 像 特 

别 适 合金 融 建 模 和 金融 算法 的 实现 。 不 过 , 这 种 方法 也 有 许多 批评 者 , 他 们 声称 对 OOP 

的 某 个 特征 甚至 整个 范 型 表示 怀疑 。 本章 采取 中 立 的 态度 , 将 OOP 视 为 一 种 重要 工具 ， 

它 也 许 不 是 每 个 问题 的 最 佳 解决 方案 , 但 应 该 是 金融 业 编程 人 员 和 宽 客 必 备 的 工具 之 一 。 
Ej OOP 相伴 的 是 一 些 新 的 术语 ， 对 本 书 和 后 续 章 节 比 较 重要 的 如 下 所 示 。 


x 




















































































































某 一 类 对 象 的 抽象 定义 ， 例 如 人 类。 
Gh 

类 的 一 个 实例 ， 例 如 Sandra. 
Ae lt 











类 (类 属性 ) 或 者 类 实例 (实例 属性 ) RE fla, AFLI” MERE” “HE 
性 ”或 者 “眼睛 的 颜色 ”。 





类 可 以 实现 的 一 个 操作 ， 例 如 步行 。 


BK 


ts 


影响 方法 行为 的 输入 , 例如， 三“ 步 ”。 
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Reape 
根据 某 个 抽象 类 创建 具体 对 象 的 过 程 。 
将 这 些 概念 转化 成 Python 代码 ， 实 现 “人 类 ”的 一 个 简单 类 示例 的 代码 如 下 ; 


In [1]: class HumanBeing(object): © 
def __init__(self, first_name, eye_color): @ 
self.first_name = first_name ® 
self.eye_color = eye_color @ 
self.position = 0 © 
def walk_steps(self, steps): © 
self.position += steps @ 


类 定义 语句 ，self 指 类 的 当前 实例 。 
实例 化 时 调用 的 特殊 方法 。 
用 参数 值 初始 化 名 字 属 性 。 
用 参数 值 初始 化 眼睛 颜色 属 
用 0 初始 化 位 置 属性 。 

步行 方法 定义 ， 以 steps ( 步 数 ) 为 参数 。 

@ 按照 steps 值 更 改 位 置 。 

根据 类 定义 ， 可 以 初始 化 并 使 用 一 个 新 的 Python 对 象 : 








性 。 





m 








© © © © © © 

















In [2]: Sandra = HumanBeing ('Sandra', 'blue') © 
In [3]: Sandra.first_name @ 
Out[3]: 'Sandra' 
In [4]: Sandra.position @ 
Out [4]: 0 
In [5]: Sandra.walk_steps(5) © 
In [6]: Sandra.position @ 
Out [6]: 5 

@ 实例 化 。 

@ 访问 属性 值 。 

© 调用 方法 。 

O 访问 更 新 后 的 Position 值 。 
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从 人 的 因素 方面 考虑 ，OOP 有 以 下 几 个 特征 。 

BAA BABH 
人 类 思维 通常 围绕 现实 世界 或 者 抽象 对 象 (如 一 辆 汽车 或 者 某 种 金融 工具 ) 发 展 。 
OOP 适合 建立 这 些 对 象 及 其 特性 的 模型 。 

EMA RE 
通过 不 同 的 方法 ，OOP 可 以 降低 某 个 问题 或 者 方法 的 复杂 度 ， 然 后 对 其 特征 逐个 

建立 模型 。 

AFA LP HE 
在 许多 情况 下 , OOP 能 实现 更 好 的 用 户 接口 和 更 紧凑 的 代码 。 例 如 , 观察 NumPy 的 
ndarray 类 或 者 pandas 的 DataFrame 类 就 能 明显 地 感受 到 这 一 点 。 

Python SUE KRT A 
不 考虑 OOP HRE, 它 都 是 Python 中 占据 主导 地 位 的 范 型 , 也 是 “Python 中 一 切 
皆 对 象 ” 这 一 说 法 的 由 来 。OOP 还 使 编程 人 员 可 以 构建 自 定义 类 ， 自 定义 类 实例 
的 表现 和 标准 Python 类 的 每 个 实例 类 似 。 

OOP 还 有 多 种 技术 上 的 特征 ， 具 体 如 下 。 

HR 
使 用 属性 和 方法 ， 我 们 可 以 构建 抽象 、 灵 活 的 对 象 模型 ， 聚 焦 于 有 关 的 特征 ， 忽 
略 不 需要 的 细节 。 在 金融 业务 中 ， 这 可 能 意味 着 创建 一 个 通用 类 ， 以 抽象 方式 确 
立 某 种 金融 工具 的 模型 。 然 后 ， 该 类 的 实例 代表 具体 的 金融 产品 ， 例 如 某 个 投资 
银行 设计 和 提供 的 产品 。 

PRERME 
OOP 简化 了 将 代码 分 解 成 多 个 模块 、 然 后 将 其 连接 成 完整 的 代码 库 的 过 程 。 例 如 ， 
某 股票 的 欧式 期 权 可 以 通过 一 个 或 者 两 个 类 (一 个 用 于 目标 股票 ， 另 一 个 用 于 期 
权 本 身 ) 实现 。 

IERIE 
继承 性 指 的 是 一 个 类 可 以 从 另 一 个 类 中 继承 属性 和 方法 。 在 金融 中 ， 从 通用 金融 
工具 开始 ,下 一 级 可 以 是 某 类 衍生 品 ， 然 后 是 欧式 期 权 ， 最 后 是 欧式 看 涨 期 权 。 
每 个 类 可 以 从 更 高 级 别 的 类 中 继承 属性 和 方法 。 

RE 
聚合 指 的 是 某 个 对 象 至 少 有 一 部 分 是 由 多 个 其 他 对 象 组 成 的 情况 ， 这 些 对 象 都 可 
以 独立 存在 。 为 欧式 看 涨 期 权 建 模 的 类 可 以 包含 其 他 对 象 的 属性 ， 这 些 对 象 分 别 
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用 于 标的 股票 和 对 应 的 短期 贴现 率 ， 它 们 也 可 以 独立 地 供 其 他 对 象 使 用 。 
AAR 
组 合 类 似 于 聚合 ， 但 单个 对 象 不 能 独立 于 其 他 对 象 存在 。 考 虑 一 个 包含 固定 利率 
方 和 浮动 利率 方 的 定制 利率 掉 期 ， 提 供 不 同 利率 的 双方 是 不 能 独立 于 掉 期 存在 的 。 
多 态 性 可 以 呈现 出 多 种 形式 。 在 Python 环境 中 特别 重要 的 是 所 谓 的 “鸭子 类 型 ” 
(Duck typing ) 。 这 个 名 词 指 的 是 标准 操作 可 能 在 许多 不 同类 上 实现 ， 它 们 的 实例 
并 不 真正 知道 所 处 理 对 象 的 事实 。 对 于 一 个 金融 工具 类 ， 这 可 能 意味 着 ， 人 们 可 
以 调用 方法 get_current_price (获取 当前 价格 ) ， 而 无 须 考 虑 对 象 的 具体 类 
型 (股票 、 期 权 、 掉 期 ) 。 
ARH 
这 个 概念 指 的 是 类 内 部 数据 仅 能 通过 公共 方法 访问 。 建 立 股票 模型 的 类 可 能 有 这 样 
一 个 属性 current_stock_price。 封 装 性 使 这 个 属性 只 能 通过 get_current_ 
stock_price() 方 法 访问 , 并 对 用 户 隐 藏 数据 ( 也 就 是 使 其 变 成 私有 数据 ) 。 这 
种 方法 可 以 通过 简单 地 处 理 ( 也 可 能 更 改 ) 属性 值 来 避免 意料 之 外 的 影响 。 但 是 ， 
在 Python 中 指定 私有 数据 的 方法 有 一 定 限制 。 
从 更 高 的 层面 讲 ， 上 述 许 多 特征 都 可 以 概括 为 软件 工程 的 两 个 总 体 目 标 ， 如 下 所 示 。 
ye Ae 
继承 性 和 多 态 性 等 概念 改善 了 代码 的 可 重用 性 ， 并 提高 了 编程 人 员 的 效能 和 生产 
率 ， 它 们 还 简化 了 代码 维护 。 
AIC 
与 此 同时 ， 这 些 方法 使 程序 员 可 构建 几乎 无 宛 余 的 代码 ， 吕 免 重复 实现 工作 ， 减 
少 调试 、 测 试 及 维护 所 需 的 精力 。 它 们 还 有 可 能 得 到 更 短小 的 代码 库 。 
本 章 组 织 如 下 。 
Python ITE ih IS 
本 节 以 OOP 的 视角 来 观察 一 些 Python 对 象 。 
Python EK AAR 
本 节 介 绍 Python OOP 的 核心 要 素 ， 使 用 金融 工具 和 投资 组 合 头寸 作为 主要 示例 。 
Python HHZ Æ 
本 节 讨 论 Python 数据 模型 的 重要 元 素 ， 以 及 某 些 特殊 方法 所 起 的 作用 。 
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6.1 Python 对 和 象 简介 



































FR PAULEY — ERRER RR 


从 简单 的 整数 (int ) 对 象 开 始 。 即 便 是 如 此 简单 的 Python 对 象 ， 也 有 着 重要 的 OOP 











首先 以 OOP 编程 人 员 的 视角 ， 简 单 了 角 
6.1.1 int 
特性 : 
In [7 n=50 
In [8 type (n) @ 
Out [8]: int 
In [9]: n.numerator ® 
Out [9]: 5 
In [10]: n.bit_length() © 
Out- [I0]: 3 
In [11]: n+n® 
Out[11]: 10 
In [12]: 2 xn ® 
Out[12]: 10 
In [13]: n.__sizeof__() @ 
Out[13]: 28 














新 实例 n。 

O 对 象 类 型 。 

© 属性 。 

@ 方法 。 

O 应 用 + 运算 符 (加 法 )。 
@ 应 用 * 运 算 符 (乘法 )。 


























@ 调用 特殊 方法 __sizeof__ 获 得 内 存 使 用 量 。 
1 Python 中 的 特殊 属性 及 方法 用 前 导 和 后 绥 的 两 个 下 划 线 表示 , 例如 在 , __xYz__() .n.__sizeof__() 
内 部 调用 import sys 中 sys.getsizeof(n)。 原 注 
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6.1.2 list 
列表 list) 对 象 有 更 多 的 方法 ， 但 表现 与 整数 对 象 基 本 相同 : 


In [14]: 1 = [1, 2, 3, 4] 0 


In 6 [0] © 
Out [16 
In [17]: l.append(10) @ 
n 8 l+1960 
Out [18 i Di, (39 dy 20; Ty 2 37 4p 104 











Out [20]: 20 














on 21 104 

o 新 实例 1. 

@ 对 象 类 型 。 

© 通过 索引 选择 一 个 元 素 。 

O 方法 。 

@ 应 用 + 运算 符 (联接 )。 

@ 应 用 * 运 算 符 (联接 )。 

@ 应 用 标准 Python 函数 sum。 

© 调用 特殊 方法 __sizeof__ 获 得 内 存 使 用 量 ， 以 字 节 为 单位 。 














6.1.3 ndarray 
整数 和 列表 对 象 是 标准 Python 对 象 。NumPy 的 ndarray 对 和 象 是 来 自 一 个 开源 软件 包 
的 “定制 ”对 象 : 


In [22]: import numpy as np © 


In [23]: a = np.arange(16).reshape((4, 4)) @ 
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In [24]: a @ 
Out[24]: array([[ 0, 1, 2, 3], 
[ 4, 5, 6, 7], 
hi8 "97 Oz. LL] 
[12, 13, 14, 15]]) 
In [25]: type(a) © 
Out [25]: numpy.ndarray 
@ SA numpy. 
@ 新 实例 a. 
© 对 象 类 型 。 


虽然 ndarray 对 象 不 是 标准 对 象 , (LE EV 
DJF Python 数据 模型 ， 我 们 将 在 本 章 后 面 解释 : 


In [26 
Out [26 


En [E27 
Out [27 


In [28 
Out [28 








In [29]: 
Out [29]: 


In [30]: 
Out [30]: 


In [31]: 
Out [31]: 


In [32]: 





a.nbytes © 
128 


a.sum() @ 
120 


a.cumsum(axis=0) ® 
array([[ 0, 1, 2, 3], 

4, 6, 8, 10], 
12) LS, 18, 21], 
24, 28, 32, 36]]) 


a+a 0 
array ([[ 0, 2, 4, 6], 

8, 10, 12, 14], 
16.7 L87 -207 22), 
24, 26, 28, 30]]) 


2*a®@ 
array([[ 0, 2, 4, 6], 

8, 10, 12, 14], 
二 67 187-207-2217 
24, 26, 28, 30]]) 
sum(a) © 
array([24, 28, 32, 36]) 





np.sum(a) @ 





F 多 情况 下 表现 得 就 像 标 准 对 象 一 一 这 要 归 
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In [33]: a. sizeof () © 
Ont [33] +112 








方法 (聚合 )。 

方法 (无 聚合 )。 

应 用 + 运算 符 ( 加 法 )。 

应 用 * 运 算 符 (乘法 )。 

应 用 标准 Python 函数 sum。 

应 用 NumPy if FH KZ np. sum, 

@ 调用 特殊 方法 __sizeof__， 获 得 以 字 节 表示 的 内 存 使 用 量 。 
6.1.4 DataFrame 


我 们 最 后 来 简单 地 观察 一 下 pandas 的 DataFrame 对 象 ， 其 表现 类 似 于 ndarray WR, 
首先 ， 以 ndarray 对 象 为 基础 实例 化 DataFrame WE: 


In [34]: import pandas as pd © 





o © © 6 © 8 8 


























In [35]: df = pd.DataFrame(a, columns=list('abcd')) @ 


In [36]: type(df) © 
Out [36]: pandas.core.frame.DataFrame 


© =A pandas. 

@ 新 实例 df. 

O 对 象 类 型 。 

其 次 ， 观 察 一 下 对 象 的 属性 、 方 法 和 操作 : 


In [37]: df.columns © 
Out [37]: Index(['a', 'b', 'c', 'd'], dtype='object') 








In [38]: df.sum() @ 


Out [38]: a 24 
b 28 
@ 32 
d 36 


dtype: int64 


In [39]: df.cumsum() ® 
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Out [39]: a 


0 
1 
2° 12 
3 24 


6 8 10 
15 18 21 
28 32 36 


In [40]: df + df @ 


Out [40]: a boc 
0 0 2 4 6 
1 8 10 12 14 
2 16 18 20 22 
3 24 26 28 30 

In [41]: 2 * df © 

Out [41]: a boc 
0 0 2 4 6 
1 8 10 12 14 
2 16 18 20 22 
3 24 26 28 30 


In [42]: np.sum(df) © 


Out [42]: a 24 
b 28 
c 32 
d 36 
dtype: int64 


In [43]: df.__sizeof__() 


Out [43]: 208 
o 属性 。 
@ 方法 (RF). 
© 方法 (无 聚合 )。 
@ 应 用 + 运算 符 (加 











法 )。 


O 应 用 * 运 算 符 (乘法 )。 
FA PRA np .sum。 











@ 应 用 NumPy 的 通 














@ 调用 特殊 方法 __sizeof__， 获 得 以 字 方 表示 的 内 存 使 用 量 





o 


6.2 Python 类 基础 知识 
要 概念 和 具体 语法 。 我 们 现在 要 研究 的 是 ， 构 建 自 


本 节 介 绍 在 Python 中 使 用 OOP AYE 
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定义 类 来 为 一 些 对 象 类 型 建 模 ， 这 些 类 型 的 对 象 无 法 用 现 有 的 Python 对 象 类 型 轻松 、 
高 效 或 正确 地 建 模 。 我 们 自始至终 都 使 用 金融 工具 的 例子 来 讲解 。 


两 行 代码 就 足以 创建 一 个 新 的 Python 类 : 








In [44]: class FinancialInstrument (object): © 
Pass @ 
In [45]: fi = FinancialInstrument() © 


In [46]: type(fi)® 


Out [46]: __main__.FinancialInstrument 


In [47]: fi © 


Out [47]: <__main__.FinancialInstrument at 0x116767278> 


In [48]: fi.__str__() © 


Out [48]: '<__main__.FinancialInstrument object at 0x116767278>' 








In [49]: fi.price = 100 @ 





In [50]: fi.price 9 
Out [50]: 100 


类 定义 语句 。 

一 些 代码 ， 这 里 简单 地 用 pass 关键 字 代 替 。 

名 为 fi 的 新 实例 。 

对 象 类 型 。 

每 个 Python 对 象 都 有 某 些 “特殊 ”的 属性 和 方法 CRA object); 这 里 调用 了 读 
取 字符 串 表 示 的 特殊 方法 。 
@ 每 个 对 象 都 可 以 在 程序 运行 中 定义 所 谓 的 数据 属性 一 一 以 常规 属性 对 比 。 


init 是 一 个 重要 的 特殊 方法 ， 每 当 对 象 实例 化 时 调用 。 它 所 取 的 参数 为 对 象 本 身 
(惯例 为 self ) 和 可 能 的 其 他 参数 : 


In [51]: class FinancialInstrument (object): 














© © © © © 























author = 'Yves Hilpisch' © 
def __init__(self, symbol, price): @ 
self.symbol = symbol ® 

















a 


1 建议 对 类 使 用 驼峰 式 命名 法 ， 在 没有 歧义 的 情况 下 ， 也 可 以 使 用 小 写 或 者 蛇 形 命名 法 〈 如 financial_ 
原 注 











instrument ) 
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self.price = price ® 


In [52]: FinancialInstrument.author® 
Out [52]: "Yves Hilpisch' 
In [53]: aapl = FinancialInstrument ('AAPL', 100) @ 


In [54]: aapl.symbol © 
Out [54]: 'AAPL' 


In [55]: aapl.author © 
Out [55]: "Yves Hilpisch' 


In [56]: aapl.price = 105 @ 








In [57]: aapl.price @ 
Out. [57] L03 


@ 类 属性 定义 〈 由 每 个 实例 继承 )。 

@ 初始 化 时 调用 特殊 方法 __init__。 

© 实例 属性 的 定义 ( 每 个 实例 单独 定义 的 )。 
@ 名 为 fi 的 新 实例 。 
© 
© 
@ 









































访问 实例 属性 。 
访问 类 属性 。 
更 改 实例 属性 值 。 


金融 工具 的 价格 经 常 变 化 ， 但 是 其 代码 可 能 不 会 改变 。 为 了 在 类 定义 中 引入 封装 ， 可 
以 定义 两 个 方法 get_price() 和 set_price()。 以 下 代码 从 前 面 的 类 定义 (而 不 再 
是 从 object ) 继承 : 


In [58]: class FinancialInstrument (FinancialInstrument): © 








def get_price(self): @ 
return self.price @ 

def set_price(self, price): ® 
self.price = price 9 


In [59]: fi = FinancialInstrument ('AAPL', 100) © 


In [60]: fi.get_price() @ 
Out [60]: 100 


In [61]: fi.set_price(105) @ 
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9 
@ 
© 
© 
(5) 
© 
@ 
© 


In [62]: fi.get_price() @ 
Out [62]: 105 


In [63]: fi.price ® 
Out [63]: 105 


通过 前 一 版 本 继承 的 类 定义 。 

定义 get_price () 方 法 。 

定义 set_price () 方 法 。 

根据 参数 值 更 新 实例 属性 。 

基于 新 类 定义 的 新 实例 fis 

调用 get_price () 方 法 读 取 实 例 属性 值 。 
通过 set_price () 更 新 实例 属性 值 。 
直接 访问 实例 属性 。 





























封装 的 目标 通常 是 对 使 用 类 的 用 户 隐藏 数据 。 添 加 取 值 getter ) 和 设 值 (setter ) 方法 























是 实现 这 


ial 








In [64]: class FinancialInstrument (object): 

def __init__(self, symbol, price): 
self.symbol = symbol 
self.__price = price © 

def get_price(self): 
return self.__price 

def set_price(self, price): 
self.__price = price 


In [65]: fi = FinancialInstrument ('AAPL', 100) 


In [66]: fi.get_price() @ 
Out [66]: 100 


In [67]: fi.__price ® 


目标 的 一 部 分 。 不 过 ， 这 并 不 能 阻止 用 户 直接 访问 和 操纵 实例 属性 。 此 时 ， 
私有 实例 属性 就 有 了 用 武之 地 。 它 们 以 两 个 前 导 下 划 线 定义 : 





AttributeError Traceback (most recent call last) 


<ipython-input-—67-bd62f6cadb79> in <module> 
----> 1 fi.__price ® 





AttributeError: 'FinancialInstrument' object has no attribute '__price' 
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In [68]: fi._FinancialInstrument__price @ 
Out [68]: 100 


In [69]: fi._FinancialInstrument__price = 105 @ 
In [70]: fi.set_price(100) © 


@ 将 价格 定义 为 私有 实例 属性 。 

© get_price () 返 回 该 属性 值 。 

© 试图 直接 访问 属性 导致 出 错 。 

O 如 果 在 类 名 前 加 上 一 个 前 导 下 划 线 ， 那 么 直接 访问 和 操纵 仍然 是 有 可 能 的 。 
O 将 价格 设 回 原始 值 。 





























Python 中 的 封装 

虽然 Python 类 的 封装 基本 上 可 以 通过 实例 属性 和 对 应 的 处 理 方法 实 
M, 但 它 并 不 能 完全 对 用 户 隐藏 数据 。 从 这 个 意义 上 说 ， 该 特性 更 多 
的 是 Python 的 设计 原则 ， 而 非 Python 类 的 技术 特征 。 





考虑 为 某 金 融 工具 投资 组 合 进行 建 模 的 另 一 个 类 。 聚 合 的 概念 很 容易 用 两 个 类 来 说 明 。 
PortfolioPosition 类 以 FinancialInstrument 类 的 一 个 实例 作为 属性 值 。 我 


们 可 以 添加 一 个 属性 值 position_size 来 计算 头寸 价值 : 


In [71]: class PortfolioPosition(object): 





def __init__(self, financial_instrument, position_size): 
self.position = financial_instrument © 
self.__position_size = position_size @ 

def get_position_size(self): 
return self.__position_size 

def update_position_size(self, position_size): 
self.__position_size = position_size 

def get_position_value (self): 
return self.__position_size * \ 


self.position.get_price() © 
In [72]: pp = PortfolioPosition(fi, 10) 


In [73]: pp.get_position_size() 
Out[73]: 10 


In [74]: pp.get_position_value() ® 
Out [74]: 1000 








In [75]: pp.position.get_price() @ 
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Out[75]: 100 
In [76]: pp.position.set_price(105) © 


In [77]: pp.get_position_value() © 
Out [77]: 1050 





基于 FinancialInstrument 类 实例 的 一 个 实例 属性 。 
PortfolioPosition 类 的 私有 实例 属性 。 
根据 属性 计算 头寸 价值 。 

连接 到 实例 属性 对 象 的 方法 可 以 直接 访问 〈 也 可 以 隐藏 )。 
O 更 新 金融 工具 价格 。 

O 根据 更 新 后 的 价格 以 计算 新 的 头 二 价值 。 














9 
© 
© 
© 














6.3 Python 数据 模型 


6.2 节 的 例子 展示 了 所 谓 Python 数据 或 对 象 模型 的 一 些 特征 。Python 数据 模型 使 你 可 
以 设计 一 直 与 Python 基本 语言 结构 进行 交互 的 类 。 这 些 类 支持 以 下 任务 和 结构 : 


。 i; 





























。 ”集合 处 理 ; 
。 属性 访问 ; 
。 ”运算 符 重 载 ; 


。 KASTE; 

。 对象 创建 与 销毁 ; 

。 ”字符 串 表 示 ( 例如， 用 于 打印 )。 

。 托管 上 上 下文 ( 即 with t), 

由 于 Python 数据 模型 非常 重要 ， 所 以 本 节 将 专门 用 一 个 例子 来 探索 它 的 多 个 特征 。 这 
个 例子 实现 了 一 个 类 ， 该 类 用 于 3 个 元 素 的 一 维 向 量 (想象 欧 几 里 得 空间 里 的 向 量 )。 
首先 是 特殊 方法 __init__: 


In [78]: class Vector (object): 
def __init__(self, x=0, y=0, z=0): © 

self.x = x © 

self.y =y © 
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In [79]: v = Vector(1, 2, 3) @ 


In [80]: v ® 
Out [80]: <__main__.Vector at 0x1167789e8> 


O 3 个 预先 初始 化 的 实例 属性 ( 想象 三 维 空 间 )。 
@ 名 为 v 的 类 新 实例 。 

© 默认 字符 串 表 示 。 

特殊 方法 __repr__ 可 以 自 定义 字符 串 表 示 : 


In [81]: class Vector (Vector): 
def __repr___(self): 











return 'Vector(%r, Sr, Sr)' % (self.x, self.y, self.z) 
In [82]: v = Vector(1, 2, 3) 


In [83]: v © 
Out [83]: Vector(1, 2, 3) 


In [84]: print(v) @ 
Vector(1, 2, 3) 


@ 新 的 字符 串 表 示 。 
abs () 和 bool () 是 两 个 Python 的 标准 函数 ， 它 们 在 Vector 类 上 的 表现 可 以 通过 特 
殊 方 法 __abs__ 和 __bool__ 定义 : 


In [85]: class Vector (Vector): 
def __abs (self): 








return (self.x xx 2 + self.y ** 2 + 
self.z xx 2) xx 0.50 


def __bool (self): 


return bool (abs (self) ) 





In [86]: v = Vector(1, 2, -1) © 


In [87]: abs (v) 
Out [87]: 2.449489742783178 


In [88]: bool (v) 
Out [88]: True 
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In [89]: v = Vector() © 

In [90]: v © 

Out [90]: Vector(0, 0, 0) 

In [91]: abs(v) 

Out [91]: 0.0 

In [92]: bool(v) 

Out [92]: False 
© 根据 3 个 属性 值 返回 欧 几 里 得 范 数 。 
@ 具有 非 零 属性 值 的 新 Vector 对 象 。 











© 仅 包 含 零 值 的 新 Vector 对 象 。 


前 面 已 经 多 次 看 到 ，+ 和 * 运 算 符 可 应 用 于 几乎 任何 Python 对 象 。 其 行为 通过 特殊 方法 





add__#ll__mul__#: 
In [93]: class Vector (Vector): 
def __add__(self, other): 
x = self.x + other.x 
y = self.y + other.y 
z = self.z + other.z 
return Vector(x, y, z)@ 
def __mul__ (self, scalar): 
return Vector(self.x * scalar, 
self.y * scalar, 
self.z * scalar)@® 
In [94]: v = Vector(1, 2, 3) 
In [95]: v + Vector(2, 3, 4) 
Out [95]: Vector(3, 5, 7) 
In [9G] sor Au 
Out [96]: Vector(2, 4, 6) 


o 在 这 个 例子 中 ， 每 个 特殊 方法 返回 一 个 

















属于 自身 类 型 的 对 象 。 








Len () 是 另 一 个 Python 标准 函数 , 它 返 回 以 元 素数 量 表示 的 对 象 长 度 。 在 对 象 上 调 





用 这 个 函数 时 ， 就 会 访问 特殊 方法 __len__。 男 一 方面 ， 特 殊 方 法 __getitem__ 


通过 方 括号 来 实现 索引 : 
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In [97]: 


In 


In 
Out 


In 
Out 


In 
Out 


In 





98]: 


99]: 
997]ž 


100 
100 


101 
101 





102 





class Vector (Vector): 
def __len__(self): 


return 3 © 
def __getitem__(self, i): 


if iin [0, -3]: return self.x 
elif i in [1, -2]: return self.y 
elif iin [2, -1]: return self.z 





else: raise IndexError('Index out of range.') 


v = Vector(1, 2, 3) 








IndexError Traceback (most recent call last) 





<ipython-input-102-f£998c57dccle> in <module> 
----> 1 v[3] 


<ipython-input-97-b0ca25eef7b3> in __getitem__(self, i) 





7 elif iin [1, -2]: return self.y 
8 elif iin [2, -1]: return self.z 
aaore 9 else: raise IndexError('Index out of range.') 





IndexError: Index out of range. 


O Vector 类 的 所 有 实例 长 度 均 为 3。 


最 后 ， 特 殊 方法 __iter__ 定义 对 象 的 元 素 在 迭代 时 的 行为 ， 定 义 该 操作 的 对 象 称 为 
可 和 迭代 对 象 。 所 有 集合 和 容器 都 是 可 迭代 的 : 


In [103]: 


In [104]: 








class Vector (Vector): 
def _-1ter_-(self): 
for i in range(len(self)): 
yield self[i] 


v = Vector(1, 2, 3) 
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In [105]: for i in range(3): © 
print (v[i]) © 


1 
2 
3 
In [106]: for coordinate in v: @ 
print (coordinate) @ 
1 
2 














o HRABRA OMi _getitem__ ). 
@ EX XH EERS (用 __iter _)。 











增强 Python 

Python 数据 模型 可 以 定义 与 标准 Python 运算 符 、 函 数 等 无 颖 交互 的 
类 。 这 使 Python 成 为 一 种 相当 灵活 的 编程 语言 ， 很 容易 通过 新 类 和 
对 象 类 型 增强 。 








6.4 节 将 在 单个 代码 块 中 提供 一 个 Vector 类 定义 来 作为 总 结 。 


6.4 Vector 类 
Vector 类 代码 如 下 : 


In [107]: class Vector (object): 
def __init__(self, x=0, y=0, z=0): 
self.x = x 





self.y = y 
self.z = z 
def __repr__(self): 


o 


return 'Vector(%r, Sr, %r)' % (self.x, self.y, self.z) 


def abs (self): 


return (self.x ** 2 + self.y ** 2 + self.z ** 2) ** 0.5 








def __bool__ (self): 
return bool (abs (self) ) 
def __add__(self, other): 


= self.x + other.x 


X 
y = self.y + other.y 
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z = self.z + other.z 
return Vector(x, Y, Z) 
def __mul__ (self, scalar): 
return Vector(self.x * scalar, 
self.y * scalar, 
self.z * scalar) 


def len__(self): 


return 3 


def __getitem__(self, i): 
if iin [0, -3]: return self.x 
elif i in [1, -2]: return self.y 
elif i in [2, -1]: return self.z 





else: raise IndexError('Index out of range.') 


def __iter__(self): 
for i in range(len(self)): 
yield self[i] 


6.5 结语 


本 章 从 理论 和 Python 示例 ， 介 绍 了 面向 对 象 编 程 的 概念 及 方法 。OOP 是 Python 使 用 的 
主要 编程 范 型 之 一 , 它 不 仅 可 以 建 模 和 实现 相当 复杂 的 应 用 , 而 且 由 于 其 灵活 的 Python 
数据 模型 ， 还 可 以 创建 与 标准 Python 对 象 表 现 相似 的 自 定义 对 象 。 虽然 针对 OOP 的 批 
评 很 多 ,但 可 以 肯定 地 说 ， 它 为 Python 编程 人 员 和 宽 客 (quent) 提供 了 强大 的 工具 ， 这 
些 工具 在 程序 达到 一 定 复 杂 度 时 很 有 帮助 。 第 5 部 分 开发 和 讨论 的 衍生 品 定价 软件 包 
提供 了 一 个 案例 ， 其 中 OOP 似乎 是 解决 回 有 复杂 性 和 抽象 要 求 的 唯一 合理 编程 范 型 。 






























































6.6 ”延伸 阅读 


下 面 是 有 关 OOP、 特 别 是 Python 编程 与 OOP 结合 的 优质 文章 : 


e Lecture Notes on Object-Oriented Programming ; 





e Object-Oriented Programming in Python. 
下 面 是 关于 Python 面向 对 象 编程 及 Python 数据 模型 的 一 本 出 色 图 书 : 
e Ramalho, Luciano (2016). Fluent Python. Sebastopol, CA: O’ Reilly. 
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第 3 部 分 


WUUUUU 





本 书 的 第 3 部 分 介绍 金融 数据 科学 的 相关 基本 技术 、 方 法 和 软件 包 。 本 部 分 的 许多 主 
题 (如 可 视 化 ) 和 软件 包 (如 scikit-learn ) 是 Python 数据 科学 的 基础 。 从 这 个 意义 上 
说 ， 这 一 部 分 为 宽 客 及 金融 分 析 人 员 提 供 了 成 为 金融 数据 科学 家 所 需 的 Python 工具 。 
和 第 2 部 分 一 样 ， 本 部 分 的 章节 按照 主题 组 织 ， 可 以 作为 读者 阅读 的 参考 : 

。 第 7 章 讨论 使 用 matplot1lib 和 plotly 进行 的 静态 和 交互 式 可 视 化 ; 

。 第 8 章 介 绍 用 pandas 处 理 金融 时 间 序 列 数据 的 方法 ; 

。 第 9 章 的 焦点 是 正确 、 快 速 地 输入 /输出 (1O ) 操作 ; 

章 介 绍 加 快 Python 代码 运行 速度 的 方法 ; 

章 聚 焦 于 金融 中 经 常 需要 的 数学 工具 ; 

。 第 12 章 介绍 如 何 使 用 Python 实现 推断 统计 学 方法 ; 
章 介绍 统计 学 与 机 器 学 习 方 法 。 
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一 图 胜 千言 。 
PT RS + 布 里 斯 班 
本 章 介绍 的 是 matplotlib 和 plotly 的 基本 可 视 化 功能 。 尽管 有 许多 其 他 的 可 视 化 库 , 但 是 
matplotlib 已 经 确立 了 一 个 标杆 ， 在 许多 情况 下 ， 它 都 是 健壮 、 可 靠 的 可 视 化 工具 。 对 于 
标准 的 绘图 工作 ， 它 很 容易 理解 ， 进 行 更 复杂 的 绘图 和 自 定义 时 ， 它 又 很 灵活 。 此 外 ， 
它 可 以 与 NumPy、pandas 及 其 提供 的 数据 结构 紧密 集成 。 
matplotlib 只 能 生成 位 图 ( 如 PNG 或 者 JPG 格式 ) 形式 的 图 表 。 相 反 ， 现 代 Web 技术 
[ 如 基于 数据 驱动 文档 ( D3.js ) 标准 的 技术 ] 可 以 生成 很 好 的 交互 式 可 能 入 图 表 〈 如 可 
以 放大 以 检查 某 部 分 细节 的 交互 式 图 表 )。plotly 是 一 个 创建 D3.js 图 表 的 便利 程序 库 。 另 
一 个 较 小 的 程序 库 Cufflinks 能 将 plotly 与 pandas 的 DataFrame 对 象 紧密 集成 ， 从 而 
创建 流行 的 金融 图 表 ( 例如 蜡烛 图 )。 

本 章 主 要 介绍 以 下 内 容 。 

FE 2D AA 
本 节 介绍 matplotlib, 并 介绍 一 组 典型 的 2D 图 表 。 该 2D 图 表 包 含 从 最 简单 的 图 形 
到 具有 两 种 刻度 或 者 不 同 子 图 的 较 高 级 的 图 形 。 

形态 3D AA 


本 节 以 matplotlib 为 基础 ， 介 绍 与 某 些 金融 应 用 有 关 的 一 组 3D 图 表 。 
KZA 2D AA 












































本 节 介 绍 创建 交互 式 2D 图 表 所 用 的 plotly 和 Cufflinks, 利用 Cufflinks 的 Quant Figure 
功能 ， 本 市 还 会 介绍 典型 的 金融 图 表 ， 例 如 用 于 股票 技术 分 析 的 图 表 。 
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本 章 无 法 全 面 地 介绍 Python matplotlib 和 plotly 所 能 进行 的 数据 可 视 化 ， 但 是 提供 了 
对 金融 学 最 基本 和 最 重要 的 功能 示例 。 后 续 的 章节 中 还 可 以 看 到 其 他 示例 。 例 如 , 第 8 
章 更 深入 地 说 明了 如 何 用 pandas 库 可 视 化 金融 时 间 序 列 数据 。 











7.1 静态 2D 绘图 


在 创建 样板 数据 并 开始 绘图 之 前 ， 需 要 进行 一 些 导入 和 定制 工作 : 


In [1]: import matplotlib as mpl © 


In [2]: mpl.__version__ @ 
Out [2]: '3.0.0' 


In [3]: import matplotlib.pyplot as plt ® 
In [4]: plt.style.use('seaborn') ©@ 


In [5]: mpl.rcParams['font.family'] = 'serif' © 











[In [6]: %matplotlib inline 





@ FA matplotlib, 平常 使 用 缩写 mpl. 
© 使 用 的 matplotlib 版 本 。 

© 导入 主 绘图 (T) Æ, 平常 缩写 为 plt。 
O 将 绘图 样式 设置 为 seaborn。 

@ 将 所 有 图 表 的 字体 设置 为 serif。 


7.1.1 一 维 数据 集 

pyplot 子 库 中 的 plot 函数 是 最 基础 的 绘图 函数 ， 它 相当 强大 。 原 则 上 ， 它 需要 两 组 
数值 。 

x 1B 

包含 x 坐标 ( 横 坐 标 ) 的 列表 或 者 数组 。 
y 值 
包含 y 坐标 〈 纵 坐标 ) 的 列表 或 者 数组 。 
当然 ,x 和 y 值 的 数量 必须 相等 ， 考 虑 如 下 代码 ， 其 输出 如 图 7-1 所 示 。 
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In [7]: import numpy as np 


In [8]: np.random.seed(1000) © 


In [9]: y = np.random.standard_normal (20) @ 





In [10]: x = np.arange(len(y)) ® 
plt.plot(x, y); © 


@ 设置 固定 的 随机 数 生成 器 种 子 ， 以 便 重 现 。 
@ 提取 随机 数 (y 值 )。 

O 设置 固定 的 整数 值 (x 值 )。 

O 以 x 和 对 象 调 用 pl1t.P1Lot () 函数 。 





0.5 


0.0 


一 0.5 





0.0 2.5 5.0 7.5 10.0 12.55 15.0 17.5 


7-1 ”根据 给 定 的 x 和 yy 值 给 





plt.plot () 会 注意 到 何 时 传递 了 ndarray WA. 在 这 种 情况 下 , 没有 必要 提供 x 值 
的 “额外 ”信息 。 如 果 只 提供 y 值 ，plot 以 索引 值 作为 对 应 的 x 值 。 因 此 ， 下 面 一 行 
代码 会 生成 完全 一 样 的 输出 〈 结果 见 图 7-2 ): 


In [11]: plt.plot(y); 


NumPy 数组 和 matplotlib 

可 以 简单 地 向 matplotlib 函数 传递 NumPy 的 ndarray xR, 
matplotlib 能 够 解释 数据 结构 以 简化 绘图 工作 。 但 是 要 注意 ， 不 
要 传递 太 大 或 者 太 复杂 的 数组 。 
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0.5 
0.0 


-0.5 


0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 


图 7-2 按照 ndarray 对 象 给 出 的 数据 绘图 














由 于 大 部 分 ndarray 方法 返回 的 仍然 是 ndarray 对 象 , 所 以 也 可 以 附加 一 个 方法 (有 些 
时 候 甚 至 可 以 附加 多 个 方法 ) 来 传递 对 象 。 用 样板 数据 调用 nqarray 对 象 上 的 cumsum () 
方法 来 获得 这 些 数 据 的 总 和 。 和 预想 的 一 样 ， 我 们 会 得 到 不 同 的 输出 〈 见 图 7-3 )。 


In [12]: plt.plot (y.cumsum()); 





0.5 








0.0 25 50 7.5 10.0 12.5 15.0 17.5 
7-3 ”按照 给 定 的 ndarray 对 象 和 一 个 附加 方法 绘 


一 般 来 说 ， 默 认 绘 图 样式 不 能 满足 报表 、 出 版 等 典型 要 求 。 例 如 ， 你 可 能 希望 自 定义 
所 使 用 的 字体 ( 例如 , 为 了 LaTeX 字体 兼容 ), 在 坐标 轴 上 有 标签 或 者 为 了 更 好 的 可 辨 
认 性 而 绘制 网 格 。 因 此 ，matplotlib 提供 了 大 量 的 函数 以 自 定 义 绘图 样式 。 有 些 函 数 容 
易 理 解 ， 其 他 的 则 需要 进行 深入 一 步 的 研究 。 例 如 ， 操 纵 坐 标 轴 和 增加 网 格 及 标签 的 
函数 很 容易 理解 ( 参见 图 7-4 ): 
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In [13]: plt.plot (y.cumsum() ) 
plt.grid(False) © 
plt.axis('equal'); @ 


@ 关闭 网 格 。 
@ 两 个 轴 使 用 相同 的 刻度 。 

















图 7-4 无 网 格 图 表 
表 7-1 列 出 了 plt .axis 的 其 他 选项 ， 大 部 分 都 以 字符 串 对 象 的 形式 传递 。 


表 7-1 plt.axis 选项 















































参数 描述 
Empty 返回 当前 坐标 轴 限 值 
off 关闭 坐标 轴线 和 标签 
equal 使 用 等 刻度 
scaled 通过 尺寸 变化 平衡 刻度 
tight 使 所 有 数据 可 见 〈 缩小 限 值 ) 
image 使 所 有 数据 可 见 〈 使 用 数据 限 值 ) 
[xmin, xmax, ymin, ymax] 将 设置 限制 为 给 定 的 (一 组 ) 值 





此 外 ,可 以 使 用 plt .xlim() 和 plt.ylim() 设 置 每 个 坐标 轴 的 最 小 值 和 最 大 值 。 下 
面 的 代码 提供 了 一 个 示例 ， 输 出 如 图 7-5 所 示 。 


In [14]: plt.plot(y.cumsum() ) 
plt.xlim(-1, 20) 
plt.ylim(np.min(y.cumsum()) - 1, 
np.max(y.cumsum()) + 1); 
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7-5 使 用 自 定义 坐标 轴 限 值 绘制 图 表 


为 了 更 容易 让 读者 理解 ， 图 表 通 常 包含 一 些 标签 一 一 描述 x 和 y 值 性 质 的 标题 和 标签 。 
这 些 标签 分 别 通 过 plt .title() 、plt .xlabel() 和 plt.ylabel () 添 加 。 上 默认 情 
况 下 ， 即 使 提供 的 数据 点 是 离散 的 ，plot () 也 绘制 连续 线条 。 离 散 点 的 绘制 通过 选择 
不 同 的 样式 选项 实现 。 图 7-6 显示 了 点 和 线 宽 为 1.5 个 点 的 线条 。 


























A Simple Plot 
0.5 
0.0 
-0.5 
® 
5 
T 
> -1.0 
-1.5 
-2.0 
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 
index 








7-6 带 有 典型 标签 的 图 表 


In [15]: plt.figure(figsize=(10, 6)) © 
plt.plot(y.cumsum(), 'b', lw=1.5) @ 





168 S78 数据 可 视 化 





plt.plot(y.cumsum(), 'ro') ® 
plt.xlabel('index') @ 
plt.ylabel('value') © 
plt.title('A Simple Plot'); © 


o 增 大 图 表 的 尺寸 。 

@ 按照 数据 绘制 一 条 线 宽 为 1.5 个 点 的 蓝 色 线 。 

按照 数据 绘制 粗 (红色 ) 点 。 

O 在 x 轴 上 加 标签 。 

O 在 y 轴 上 加 标签 。 

@ 加 一 个 标题 。 

默认 情况 下 ，plt .plot O 支持 表 7-2 中 的 颜色 缩写 。 
表 7-2 标准 颜色 缩写 
































字符 颜色 
b 蓝 
g 绿 
È 红 
È 青 
m mé 
y 黄 
k 黑 
w A 





至 于 线 和 点 的 样式 ，p1t .plot () 支持 表 7-3 中 列 出 的 字符 。 
表 7-3 标准 样式 字符 
































r 像素 标记 











o 圆 标记 
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字符 象征 











V 可 下 三 








形 标记 











可 上 三 








3 形 标记 











< 可 左 三 








3 形 标记 





























> A 





3 形 标记 





Tri _ down 标记 





Tri_up 标记 








1 
2 
3 Tri_left 标记 
4 


Tri_right 标记 

















s 方形 标记 





五 边 形 标记 





星 号 


























六 角形 标记 2 





p 
0 
h 六 角形 标记 1 
H 
0 


加 号 





x 
”x 


标记 























菱形 标记 




















D 
d 细 萎 形 标 记 














垂直 线 标记 











二 水 平 线 标记 





颜色 缩写 可 以 与 样式 字符 任意 组 合 ， 这样， 可 以 确保 用 户 能 够 轻松 区 分 不 同 的 数据 集 。 





绘图 样式 也 会 反映 到 图 例 中 。 
7.1.2 二 维 数 据 集 





TY 


绘制 一 维 数据 可 以 看 作 一 种 特例 。 一 般 来 说 ， 数 据 集 包 含 多 个 单独 的 子 集 。 这 种 数据 的 处 








理 遵循 matplotlib 处 理 一 维 数据 时 的 原则 。 但 是 ， 这 种 情况 会 引起 











其 他 一 些 问 题 ,例如 ， 


7x 




















两 个 数据 集 可 能 有 不 同 的 刻度 ， 无 法 用 相同 的 y 或 x 轴 刻 度 绘 制 。 另 一 个 问题 是 ， 你 可 能 
希望 以 不 同 的 方式 可 视 化 两 组 不 同 数据 ， 例 如 ， 一 组 数据 使 用 线 图 ， 另 一 组 使 用 柱状 图 。 

下 面 的 代码 生成 了 一 个 二 维 样本 数据 集 一 一 包含 标准 正 态 分 布 ( 伪 ) 随机 数 的 20x2 
ndarray 对 象 。 在 这 个 数组 上 调用 cumsum () 来 计算 样本 数据 在 0 轴 ( 即 第 一 维 ) 上 











的 总 和 : 


In [16]: y = np.random.standard_normal((20, 2)).cumsum(axis=0) 
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一 般 来 说 ， 也 可 以 将 这 样 的 二 维 数组 传递 给 plt .plot () 。 它 将 自动 把 包含 的 数据 解 


释 为 单独 的 数据 集 ( 沿 着 1 轴 ， 即 第 二 维 )。 生 成 的 


图 表 如 图 7-7 所 示 。 








In [17]: plt.figure (figsize=(10, 6)) 
plt.plot(y, lw=1.5) 
plt.plot(y, 'ro') 
plt.xlabel ('index') 
plt.ylabel ('value') 
plt.title('A Simple Plot'); 

A Simple Plot 
6 
4 
a2 
3 
© 
> 
0 
-2 
一 4 
0.0 2.5 5.0 7.5 10.0 
index 











7-7 ”按照 两 个 数据 集 绘图 


在 这 种 情况 下 ， 进 一 步 的 注释 有 助 于 用 户 更 好 地 理解 图 表 。 你 可 以 为 每 个 数据 集 添加 
单独 的 标签 并 在 图 例 中 列 出 。 plt .legend () 接受 不 同 的 位 置 参数 。0 表示 “最 佳 位 置 ”， 






































也 就 是 图 例 应 尽 可 能 少 地 遮盖 数据 。 

7-8 展示 了 包含 两 个 数据 集 的 图 表 ， 这 一 次 带 有 图 例 。 在 生成 代码 中 ， 我 们 没有 传 
递 整个 ndarray 对 象 ， 而 是 分 别 访问 两 个 数据 子 集 (y[:，0] 和 y[:，1] )， 这 人 允许 
你 为 它们 附加 单独 的 标签 : 

In [18]: plt.figure(figsize=(10, 6)) 

plt.plot(y[:, 0], lw=1.5, label='1st') © 
plt.plot(y[:, 1], lw=1.5, label='2nd') © 
plt.plot(y, 'ro') 
plt.legend(loc=0) @ 
plt.xlabel ('index') 
plt.ylabel ('value') 
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plt.title('A Simple Plot'); 





o 为 数据 子 集 定义 标签 。 
@ 将 图 例 放 在 “最 佳 ”位 置 。 








value 


0.0 2.5 5.0 





A Simple Plot 


7.5 10.0 12.5 15.0 
index 








7-8 带 有 数据 集 标签 的 图 表 


plt.legend () 的 其 他 位 置 选项 如 表 7-4 所 示 。 


表 7-4 plt.legend() 选 项 









































位 置 代码 描述 
Default (默认 ) 右上 
0 BE 

1 右上 

2 左上 

3 左下 

4 右 下 

5 右 侧 

6 左 侧 居中 

7 右 侧 居中 

8 下 方 居 中 

9 上 方 居 中 
10 居中 
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多 个 具有 类 似 刻 度 的 数据 集 ( 如 同一 金融 风险 因素 的 模拟 路 径 ) 可 以 用 相同 的 y 轴 绘 
制 。 但 是 ， 数 据 集 常常 有 不 同 的 刻度 ， 用 单一 》 轴 刻度 绘制 这 种 数据 的 图 表 通 常会 导 
致 可 视 化 信息 的 显著 丢失 。 为 了 说 明 这 种 效果 ， 我 们 将 两 个 数据 子 集 中 的 第 一 个 数据 
集 扩大 100 倍 ， 然 后 再 次 绘制 该 图 (参见 图 7-9 )。 


A Simple Plot 

















-100 
3 
号 -200 


—300 


一 400 





0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 
index 


7-9 包含 两 个 不 同 刻度 数据 集 的 图 表 











H 
5 
一 
= 
Xe} 
K 
~ 
OO 


= y[:, 0] * 100 © 


lt.figure(figsize=(10, 6)) 
lt.plot(y[:, 0], lw=1.5, label='1st') 
lt.plot(y[:, 1], lw=1.5, label='2nd') 
lt.plot(y, 'ro') 

Lt . legend (loc=0) 

t.xlabel ('index') 

lt.ylabel('value') 

lt.title('A Simple Plot"); 


o 改变 第 一 个 数据 子 集 的 刻度 。 


观察 图 7-9 可 以 看 出 ， 第 一 个 数据 集 仍然 是 “在 视觉 上 易于 辨认 的 "， 而 第 二 个 数据 集 
在 新 的 y 轴 刻 度 上 看 起 来 像 一 条 直线 。 在 某 种 程度 上 ， 第 二 个 数据 集 的 有 关 信 息 现在 
“在 视觉 上 已 经 丢失 ”。 通 过 绘图 手段 而 非 调整 数据 ( 例如 通过 改变 刻度 ) 来 解决 这 个 
问题 的 基本 方法 有 两 种 : 


。 ”使 用 2 个 y 轴 ( 左 / 右 ); 


£ 








人 
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使 用 两 个 子 图 (E/F, 左 / 右 )。 


下 面 的 例子 在 图 表 中 引入 第 二 个 y 轴 。 图 7-10 中 有 两 个 不 同 的 y 轴 ， 左 侧 的 y 轴 用 于 


第 一 个 数据 集 ， 右 侧 的 轴 用 于 第 二 个 数据 集 ， 因 此 ， 有 两 个 





图 例 : 





A Simple Plot 


RAN 
E 


-100 


t 2 a a 
® —200 人 
'g 

ENS hi 
-300 T 
-400 V 
— et 

ust s 
0.0 #25 50 75 100 12.5 15.0 


index 









=e 2nd 


value 2nd 


17.5 





7-10 包含 两 个 数据 集 、 两 个 y 轴 的 图 表 


In [21]: fig, axl = plt.subplots() © 
plt.plot(y[:, 0], 'b', lw=1.5, label=' 
plt.plot(y[:, 0], trot) 
plt.legend(loc=8) 
plt.xlabel ('index') 
plt.ylabel('value 1st') 
plt.title('A Simple Plot') 
ax2 = axl.twinx() @ 
plt.plot(y[:, 1], 'g', lw=1.5, label=' 
plt.plot(y[:, 1], 'ro') 
plt.legend (loc=0) 
plt.ylabel('value 2nd'); 











o 定义 图 与 轴 对 象 。 
@ 创建 第 二 个 轴 对 象 ， 共 享 x 轴 。 
管理 坐标 轴 的 代码 行 是 关键 ， 如 : 


fig, axl = plt.subplots() 





ax2 = axl.twinx() 








通过 使 用 plt .subplots () 函数 , 我 们 可 以 直接 访问 底层 绘 





Lst*) 


2nd') 


图 对 象 ( 图 、 子 图 等 ), 例如 ， 








可 以 用 它 生 成 和 第 一 个 子 图 共享 x 轴 的 第 二 个 子 图 。 图 7-10 中 有 两 个 相互 重 到 的 子 图 。 





接 下 来 ， 考 虑 两 个 单独 子 


图 的 情况 。 这 个 选项 提供 了 处 理 两 个 数据 集 的 更 大 自由 度 ， 
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如 图 7-11 所 示 。 


Im [22]: 








et of D o aI o 0 


@ 定义 上 方 的 子 
@ 定义 下 方 的 子 








.figure (figsize=(10, 
.Subplot (211) 
.Plot (y[:, 
.Plot (y[:, 
.legend (loc=0) 


y 
万 
. subplot (212) 
P 
P 


.ylabel( 


6)) 
o 
lw=1.5, 


trot) 


0], 
0], 


label='1st') 


label ('value') 
itle('A Simple Plot') 
e 
'g', 
"ro') 


L], 
L], 


Lot (y[:, lw=1.5, label='2nd') 


lot(y[:, 


. Legend (loc=0) 
.xlabel ('index') 








"value'); 


lo 





20 





0.0 


value 





A Simple Plot 





1st 


10.0 12.5 15.0 


= 2nd 


17.5 








7-11 


带 有 两 个 子 图 的 图 表 





matplotlib 图 形 对 象 中 子 图 的 定位 通过 


有 3 个 整数 参数 , BI numrows, nume 
K 


numrows 指定 行 数 ，numcols 指定 列 数 ，fignum 指定 子 图 














种 特殊 的 坐标 系 来 实现 。P1t .supplot () 
ols 和 fignum (可 能 有 逗号 分 隔 , 也 可 能 没有 )。 
15 (M 1 Fj numrows x 


























numcols ) 例如 , 有 9 个 大 小 相同 子 图 的 图 表 的 表示 应 该 为 numrows=3, numcols=3, 


fignum=1, 2, 


…，9。 左 下 角 的 子 图 “坐标 ”如 下 : 
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plt.subplot (3, 3, 9). 


有 时 候 ， 选 择 两 个 不 同 的 图 表 类 型 来 可 视 化 数据 可 能 是 必要 的 ， 也 是 理想 的 。 利 用 子 
图 方法 ， 我 们 就 可 以 自由 地 组 合 matplotlib 提供 的 任意 图 表 类 型 :了 。 


图 7-12 组 合 了 线 图 /点 图 和 柱状 图 : 


In [23]: .figure(figsize=(10, 6)) 

. subplot (121) 

-plot(y[:, 0], lw=1.5, label="1st') 

-plot(y[:, 0], 'ro') 

. Legend (loc=0) 

.xlabel ('index') 

-ylabel ('value') 

-title('lst Data Set') 

.Subplot (122) 

-bar(np.arange(len(y)), yl[:, 1], width=0.5, 
color='g', label='2nd') © 

t.legend (loc=0) 


Pee ce Ce ee Or Ce Os eo 
ole eee oe ee ee 


fa 


plt.xlabel ('index') 
plt.title('2nd Data Set"); 


@ 创建 一 个 柱状 (bar ) FEL 











1st Data Set 2nd Data Set 
— Ist ma 2nd 
7 
0 
6 
-100 5 
g 4 
E] -200 
> 
3 
-300 2 
1 
-400 | 
0 =- 
0 5 10 15 0 5 10 15 20 
index index 








7-12 ”组合 线 /点 子 图 和 柱状 子 图 





1 可 用 图 表 类 型 的 概述 可 访问 matplotlib。 一 一 原 注 





7.1.3 其 他 绘图 样式 











对 于 二 维 绘图 ， 线 图 和 点 图 可 能 是 金融 学 中 最 重要 的 ; 这 是 因为 许多 数据 集 用 于 表示 





Tr 








T 





A ARRIT IERI IIA o 

















TEFIE, CCE APY DA AG AILS EFT AT AI. 8 章 将 详细 探讨 金融 


十 间 序 列 数据 。 但 是 ， 本 节 中 我 们 依旧 使 用 二 维 数据 集 ， 并 介绍 一 些 对 金融 应 用 程序 


我 们 要 介绍 的 第 一 种 图 表 是 散 点 图 , 它 将 其 中 一 个 数据 集 的 值 作为 其 他 数据 集 的 x 值 。 
判 一 个 金融 时 间 序 列 的 收益 和 另 一 


7-13 展示 了 散 点 图 。 例 如 ， 散 点 图 类 型 可 用 于 绘 人 





个 时 间 序 列 收益 的 对 比 。 在 下 面 的 例子 中 ,我们 将 对 二 维 数据 集 和 其 他 一 些 数据 应 用 


散 点 图 : 








Scatter Plot 














7-13 用 plot O 函数 绘制 散 点 图 


In [24]: y = np.random.standard_normal((1000, 2)) © 


In [25]: plt.figure(figsize=(10, 6)) 
plt.plot(y[:, 0], y[:, 1], 'ro') 
plt.xlabel('lst') 
plt.ylabel ('2nd"') 
plt.title('Scatter Plot'); 


@ 创建 一 个 包含 随机 数 的 较 大 数据 集 。 
@ 通过 plt.plot () 函数 制作 散 点 图 。 








@ 
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matplotlib 还 提供 了 生成 散 点 图 的 一 个 特殊 函数 。 该 函数 的 工作 方式 与 刚才 介绍 的 本 质 
上 相同 ， 但 是 提供 了 一 些 额外 的 功能 。 图 7-14 展示 了 与 图 7-13 对 应 的 散 点 图 ， 这 次 使 用 
的 是 plt .scatter () A: 


In [26]: plt.figure (figsize=(10, 6)) 
plt.scatter(y[:, 0], y[:, 1], marker='0') © 
plt.xlabel('lst') 
plt.ylabel ('2nd") 
plt.title('Scatter Plot'); 





O iw plt.scatter () 函数 制作 散 点 图 。 





Scatter Plot 


2nd 














图 7-14 通过 scatter() 函 数 绘制 散 点 图 


PIt.scatter() 绘 图 函数 允许 加 入 第 三 个 维度 ， 通 过 不 同 的 颜色 来 进行 可 视 化 ,并 
使 用 色 卡 条 加 以 描述 。 图 7-15 展示 了 一 个 第 三 维 由 不 同 颜色 的 点 表示 、 图 例 用 色 卡 
条 表示 的 散 点 图 。 为 此 , 我 们 用 随机 数据 生成 第 三 个 数据 集 ， 这 次 使 用 的 是 0 一 10 的 
整数 : 


In [27]: c = np.random.randint(0, 10, len(y)) 


In [28]: plt.figure(figsize=(10, 6)) 
plt.scatter(y[:, 0], y[:, 1], 
c=c, © 
cmap='coolwarm', @ 
marker='0') @ 





178 第 7 章 数据 可 视 化 


plt. 


colorbar () 


plt.xlabel('lst') 
plt.ylabel ('2nd"') 
plt.title('Scatter Plot'); 


@ 包含 第 3 个 数据 
@ 选择 颜色 映射 。 
© 定义 散 点 形状 为 


集 。 


粗 点 。 











Scatter Plot 


-2 -f 0 1 2 3 








图 7-15 具备 第 三 维 的 散 点 图 


男 一 种 图 表 类 型 一 一 直方 图 也 常常 用 于 金融 收益 中 。 图 7-16 在 同一 个 图 表 中 放置 了 两 





个 数据 集 的 频率 值 : 
In, [29]; plt. 


plt 
plt, 
plt 
plt 
PLE- 


@ 通过 plt.hist 


figure (figsize=(10, 6)) 


.hist (y, label=['1st', '2nd'], bins=25) © 


legend (loc=0) 


.xlabel ('value') 


-ylabel ('frequency') 


title ('Histogram'); 


() 函数 制作 直方 图 。 
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7-16 ”两 个 数据 集 的 直方 图 





直方 图 是 金融 应 用 中 的 重要 图 表 类 型 , 我 们 要 更 认真 地 观察 plt .hist () 的 使 用 方法 。 
下 面 的 例子 说 明了 plt .hist O 所 支持 的 参数 : 


plt.hist (x, bins=10, range=None, normed=False, weights=None, cumulative=False, 





bottom=None, histtype='bar', align='mid', orientation='vertical', rwidth=None, 
log=False, color=None, label=None, stacked=False, hold=None, **kwargs) 


K 7-5 提供 了 plt hist () 函数 主要 参数 的 简单 介绍 。 


表 7-5 plt.hist () 人 参数 





























参数 描述 
x 列表 对 象 ，ndarray WHR 
bins 数据 组 (bin ) 数 
range 数据 组 的 下 界 和 上 界 
normed 规范 化 为 整数 1 
weights x 轴 上 每 个 值 的 权重 
cumulative 每 个 数据 组 包含 的 较 低 组 别 的 数量 
histtype 选项 (字符 串 ): bar, barstacked, step, stepfilled 
align 选项 (字符 串 ): left, mid, right 
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参数 描述 
orientation 选项 〈 字 符 串 ): horizontal, vertical 
rwidth 条 的 相对 宽度 
log 对 数 刻度 
color 每 个 数据 集 的 颜色 ( 类 似 数组 ) 
label 标签 所 用 的 字符 串 或 者 字符 串 序列 
stacked 堆 释 多 个 数据 集 








7-17 展示 了 一 个 直方 图 。 在 图 7-17 中 ， 两 个 数据 集 的 数据 在 直方 图 中 堆肥 





Histogram 
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In [30]: plt.figure(figsize=(10, 6)) 
plt-hist(y, label=['lst', '2nd'], color=['b', 'g'], 
stacked=True, bins=20, alpha=0.5) 
plt.legend(loc=0) 
plt.xlabel ('value') 
plt.ylabel ('frequency') 
plt.title('Histogram') ; 





还 有 一 种 实用 的 图 表 类 型 是 箱 形 图 。 和 直方 图 类 似 ， 箱 形 图 可 以 简洁 地 展现 数据 集 的 
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特性 ， 很 容易 比较 多 个 数据 集 。 图 7-18 根据 了 根据 我 们 的 数据 集 绘制 的 箱 形 图 


In [31]: fig, ax = plt.subplots(figsize=(10, 6)) 
plt.boxplot(y) © 
plt.setp(ax, xticklabels=['lst', '2nd']) @ 
plt.xlabel('data set") 
plt.ylabel ('value') 
plt.title('Boxplot'); 


O 通过 plt.boxplot () 函数 制作 箱 形 图 。 
@ 设置 单独 的 x 轴 标签 。 








Boxplot 


value 


1st 2nd 
data set 











图 7-18 两 个 数据 集 的 箱 形 图 
最 后 一 个 例子 将 介绍 plt.setp () 函数 ， 该 函数 可 以 设置 (一 组 ) 图 表 实 例 的 属性 。 
例如 ， 考 虑 下 列 代码 生成 的 线 图 : 
line = plt.plot(data, 'r') 
使 用 如 下 的 代码 : 


plt.setp(line, linestyle='--') 


将 线 的 样式 更 改 为 “ 短 画 线 "。 这 样 ， 你 可 以 轻松 地 在 图 表 实 例 (“艺术 家 对 象 ”) 生成 
之 后 修改 参数 。 


在 本 节 的 最 后 一 个 示例 中 ， 我 们 考虑 一 个 受到 数学 启迪 的 图 表 ， 这 个 例子 也 可 以 在 
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matplotlib 的 “展厅 ”中 找到 。 它 绘制 一 个 函数 的 图 像 ， 并 以 图 形 的 方式 说 明了 在 某 个 
下 限 和 上 限 之 间 函 数 图 像 下 方 区 域 的 面积 。 换 言 之 ， 从 下 限 到 上 限 的 函数 积分 值 。 积 











分 ( 值 ) 可 以 表示 为 | fd, JER fade +1 a b=>。 


图 7-19 展示 了 结 





RA, 说 明 matplotlib 能 够 无 缝 地 处 理 LaTeX 字体 设置 , 并 在 图 表 中 加 入 数学 公式 。 首 











先 定 义 积分 上 下 限 为 变量 的 函数 ， 以 及 包含 x 和 >y 值 的 数据 集 : 


In [32]: def func(x): 
return 0.5 * np.exp(x) + 1 © 
a, b= 0.5, 1.5 @ 
x = np.linspace(0, 2) © 
y = func(x) © 
Ix = np.linspace(a, b) © 
Iy = func(Ix) © 

















verts = [(a, 0)] + list(zip(Ix, Iy)) + [(b, 0)] 
O 函数 定义 。 
@ 积分 上 下 限 。 
© 绘制 函数 图 表 的 x 值 。 
@ 绘制 函数 图 表 的 y 值 。 
O 积分 上 下 限 内 的 x 值 。 
O 积分 上 下 限 内 的 y 值 。 
O 列表 对 象 ， 包 含 表示 所 绘制 多 边 形 坐 标的 元 组 对 象 。 
其 次 是 如 何 绘图 。 要 明确 地 放置 许多 单独 对 象 ， 这 有 一 点 难度 : 


\ 


In [33]: from matplotlib.patches import Polygon 

fig, ax = plt.subplots(figsize=(10, 6)) 
plt.plot(x, y, 'b', linewidth=2) © 
lt.ylim(bottom=0) @ 


x.add_patch(poly) ® 


plt.figtext (0.9, 0.075, '$x$') © 
plt.figtext (0.075, 0.9, 'Sf£(x)$') © 
ax.set_xticks((a, b)) © 
ax.set_xticklabels(('$Sa$', '$b$')) © 
ax.set_yticks([func(a), func(b)]) @ 
ax.set_yticklabels(('Sf(a)$', 'Sf(b)$')); @ 








(7 


P 
poly = Polygon (verts, facecolor='0.7', edgecolor='0.5') © 
a 
P 


lt.text (0.5 * (a + b), 1, r'$\int_a^b f(x)\mathrm{d}x$', 


horizontalalignment='center', fontsize=20) @ 
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O 将 函数 值 绘制 为 一 条 蓝 色 线 。 

@ 为 纵 轴 定 义 最 小 y 值 。 

O 将 多 边 形 (积分 区 域 ) 绘制 为 灰色 。 
@ 在 图 中 放置 积分 公式 。 

@ 放置 轴 标 签 。 
© 放置 x 轴 刻 度 标 
O 放置 y 轴 刻 度 标 
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图 7-19 指数 函数 、 积 分 区 域 和 LaTeX 标签 


7.2 静态 3D 绘图 


金融 行业 中 没有 很 多 领域 能 真正 地 从 三 维 可 视 化 得 益 。 但 是 ， 其 中 一 个 得 益 的 应 用 领 
域 是 波动 率 曲 面 ， 它 同时 显示 不 同 到 期 日 、 行 权 价 的 交易 期 权 的 隐 含 波动 率 。 附 录 B 
中 有 一 个 欧式 看 涨 期 权 价 值 曲 面 和 vega 值 曲面 的 可 视 化 示例 。 下 文 的 代码 人 为 地 生成 
了 一 个 类 似 波 动 率 曲面 的 图 表 。 考 虑 如 下 人 参数; 

© ， 行 权 价 为 S0 一 150; 

。 到 期 时 间 为 0.5 年 一 2.5 年 。 

上 列 参数 提供 了 一 个 二 维 坐 标 系 。NumPy 的 np.meshgrid () 函数 可 以 通过 两 个 一 维 
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ndarray 对 象 生成 此 类 坐标 系 : 








In [34 
In [35 
In [36 
Im [37]: 
Out [37]: 
In [38]: 
In [39]: 
Out [39]: 


strike = np.linspace(50, 150, 24) © 
ttm = np.linspace(0.5, 2.5, 24) @ 
strike, ttm = np.meshgrid(strike, ttm) ® 


strike[:2].round(1) ® 
array([[ 50. , 54.3, 58.7, 63. , 67.4, 71.7, 76.1, 80.4, 84.8, 
89.1, 93.5, 97.8, 102.2, 106.5, 110.9, 115.2, 119.6, 123.9, 
128:3, 132.6, 137. -p 241.35 245.79 1504-1, 
[ 50. , 54.3, 58.7, 63. , 67.4, 71.7, 76.1, 80.4, 84.8, 
89.1, 93.5, 97.8, 102.2, 106.5, 110.9, 115.2, 119.6, 123.9, 
T2837 L328, Vote, LAled, 2458) 150% 113 


iv = (strike - 100) ** 2 / (100 * strike) / ttm @ 


iv[:5, :3] @ 

array([[l. , 0.76695652, 0.58132045], 
[0.85185185, 0.65333333, 0.4951989 ], 
[0.74193548, 0.56903226, 0.43130227], 
[0.65714286, 0.504 , 0.38201058], 
[0.58974359, 0.45230769, 0.34283001]]) 


O 包含 行 权 价 的 ndarray 对 象 。 

@ 包含 到 期 日 的 ndarray 对 象 。 

© 创建 的 两 个 二 维 ndarray WR ( 网 格 )。 
@ 虚拟 的 隐 含 波动 率 值 。 

以 下 代码 绘制 的 图 表 如 图 7-20 所 示 : 














In [40]: 


from mpl_toolkits.mplot3d import Axes3D © 

fig = plt.figure(figsize=(10, 6)) 

ax = fig.gca(projection='3d') @ 

surf = ax.plot_surface(strike, ttm, iv, rstride=2, cstride=2, 
cmap=plt.cm.coolwarm, linewidth=0.5, 
antialiased=True) © 

ax.set_xlabel('strike') @ 

ax.set_ylabel('time-to-maturity') © 

ax.set_zlabel('implied volatility') © 

fig.colorbar(surf, shrink=0.5, aspect=5); @ 














O 导入 对 应 的 3D 绘图 功能 ， 这 是 必要 的 ， 但 我 们 不 会 直接 使 用 Axe3D。 














R] 


7.2 静态 3D 绘 
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@ 为 3D 绘图 创建 画布 。 
© 创建 3D 图 表 。 

O 设置 zx 轴 标签 。 

O RE y 轴 标 签 。 

O 设置 z 轴 标 签 。 

@ 创建 色 卡 条 。 
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7-20 ( 虚拟 ) 隐 含 波动 率 的 3D 曲面 图 表 





K 7-6 提供 了 plt .plot_surface() 函数 的 不 同 参 数 。 


表 7-6 plot_surface () 的 参数 



























































参数 描述 
X,Y,Z 表示 数据 值 的 二 维 数 组 
rstride 数组 行距 〈 步 长 ) 
cstride 数组 列 距 (AK ) 
color 曲面 片 颜色 
cmap 曲面 片 颜 色 映 射 
facecolors 单独 曲面 片 的 表面 颜色 
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描述 
将 数值 映射 到 颜色 的 Normalize 实例 
vmin 映射 的 最 小 值 
vmax 映射 的 最 大 值 
shade 














eT Eem 

















和 二 维 图 表 一 样 ， 线 样式 可 以 由 单个 点 或 者 下 例 中 的 单个 三 角形 表示 。 图 7-21 用 相同 
的 数据 绘制 3D 散 点 图 ， 现 在 用 view_init () 函数 来 从 不 同 的 视角 进 
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E 7-21 (虚拟 ) 隐 含 波动 率 的 3D 散 点 图 
In [41]: fig = plt.figure(figsize=(10, 6)) 
= fig.add_subplot (111, 
ax.view_init (30, 60) © 


ax projection='3d') 


ax.scatter (strike, ttm, iv, zdir='z', s=25, 
c='b', marker='*') © 


ax.set_xlabel ('strike') 
ax.set_ylabel ('time-to-maturity'") 


ax.set_zlabel ('implied volatility'); 


@ 设置 视角 。 
@ 创建 3D 散 点 图 。 
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7.3 ZER 2D 绘图 


matplotlib 可 以 创建 静态 位 图 对 象 或 者 PDF 格式 的 图 表 。 近 年 来 , 我 们 可 以 用 程序 库 来 
创建 基于 D3.js 标准 的 交互 式 图 表 。 这 种 图 表 可 以 缩放 、 通 过 鼠标 悬 停 检 查 数据 ,还 有 
其 他 一 些 功能 。 一 般 来 说， 这 种 图 表 很 容易 谱 入 到 网 页 中 。 

plotly 是 一 个 流行 的 平台 和 绘图 程序 库 ， 专 门 用 于 数据 科学 中 的 可 视 化 ,在 数据 科学 社 
区 中 被 广泛 使 用 。plotly 的 主要 优点 是 与 Python 生态 系统 紧密 集成 ， 易 于 使 用 一 一 特别 
是 与 pandas 的 DataFrame 对 象 和 封装 右 软 件 包 Cufflinks 相 结合 时 。 

为 了 获取 某 些 功能 ， 需 要 注册 一 个 plotly 的 免费 账户 。 一 旦 得 到 登录 凭据 ， 应 该 将 其 保 
存在 本 地 以 永久 使 用 。 有 具体 细节 请 参见 Getting Started with Plotly for Python 指南 。 

本 节 仅 专注 于 一 些 有 选择 的 方面 ， 其 中 Cufflinks 专门 用 来 将 保存 在 DataFrame 对 象 中 
的 数据 创建 为 交互 式 图 表 。 


7.3.1 基本 图 表 
要 想 从 Jupyter Notebook 环境 开始 ， 必 须 先导 入 一 些 程序 库 ， 并 开启 笔记 本 绘图 模式 : 


In [42]: import pandas as pd 





















































In [43]: import cufflinks as cf © 
In [44]: import plotly.offline as plyo@ 
In [45]: plyo.init_notebook_mode (connected=True) ® 
@ SA cufflinks, 
© FA plotly 的 离线 绘图 功能 。 
O 开启 笔记 本 绘图 模式 。 
远程 或 本 地 泻 染 
plotly 中 也 有 在 plotly 服务 器 上 泻 染 图 表 的 选项 。 不 过 ， 笔 记 本 模式 
通常 快 得 多 ， 特 别 是 在 处 理 较 大 数据 集 时 。 话 虽 如 此 ， 某 些 功能 (如 
plotly 的 流 绘 图 服务 ) 只 有 通过 与 服务 器 的 通信 才能 使 用 。 





下 面 的 例子 仍然 使 用 伪 随 机 数 ， 这 一 次 这 些 伪 随机 数 保存 在 包含 DatetimeIndex 的 
DataFrame 对 象 中 (也 就 是 时 间 序 列 数据 ); 


In [46]: a = np.random.standard normal((250, 5)).cumsum(axis=0) © 




















In [47]: index = pd.date_range('2019-1-1', @ 
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freq='B', © 
periods=len(a)) © 


In [48]: df = pd.DataFrame(100 + 5 * a, © 
columns=list('abcde'), © 
index=index) @ 
In [49]: df.head() © 
Out [49]: a b c d e 
2019-01-01 109.037535 98.693865 104.474094 96.878857 100.621936 
2019-01-02 107.598242 97.005738 106.789189 97.966552 100.175313 
2019-01-03 101.639668 100.332253 103.183500 99.747869 107.902901 
2019-01-04 98.500363 101.208283 100.966242 94.023898 104.387256 
2019-01-07 93.941632 103.319168 105.674012 95.891062 86.547934 


@ 标准 正 态 分 布 伪 随 机 数 。 

@ DatetimeIndex 对 象 的 起 始 日 期 。 
© 频率 (“交易 日 ”)。 

@ 所 需 期 数 。 

O 原始 数据 的 线性 变换 。 
© 

@ 

© 





单字 符 的 列 标题 。 

DatetimeIndex 对 象 。 

前 5 行 数据 。 
Cufflinks 为 DataF rame 添加 了 一 个 新 方法 :df .iplot () 。 这 个 方法 在 后 端 使 用 plotly 
创建 交互 式 图 表 。 本 节 的 代码 示例 全 部 使 用 该 方法 ， 从 而 以 静态 位 图 的 形式 下 载 交 互 
式 图 表 ， 然 后 将 其 能 入 到 文本 中 。 在 Jupyter Notebook 环境 中 ,创建 的 图 表 都 是 交互 式 
的 。 以 下 代码 的 执行 结果 如 图 7-22 所 示 : 


In [50]: plyo.iplot( © 
df.iplot (asFigure=True), @ 























# image='png', © 
filename='ply_01' @ 
) 


O 这 利用 了 plotly 的 离线 (笔记 本 模式 ) 功能 。 

@ 以 asFigure=True 为 参数 调用 df.iplot () 方 法 ， 可 以 进行 本 地 绘图 和 谍 人 。 
© image 选项 还 提供 了 图 表 的 静态 位 图 版 本 。 

O 指定 保存 的 位 图 文件 名 (文件 扩展 名 自动 添加 )。 











R] 
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7-22 FA plotly, pandas 和 Cufflinks 绘制 时 间 序 列 数据 的 线 图 


和 matplotlib 及 pandas 的 绘图 功能 一 样 ，qf .iplot O 可 以 用 多 种 参数 定制 图 表 (4 
见 图 7-23 ): 


In [51]: plyo.iplot ( 
df[['a', 'b']].iplot (asFigure=True, 
theme='polar', © 
title='A Time Series Plot', @ 
xTitle='date', © 
yTitle='value', 9 





mode={'a': 'markers', 'b': 'lines+markers'}, © 
symbol={'a': 'circle', 'b': 'diamond'}, © 
size=3.5, @ 

colors={'a': 'blue', 'b': 'magenta'}, © 


) v 
# image='png', 
filename='ply_02' 
) 


@ 为 图 表 选 择 主题 (绘图 样式 )。 

@ 添加 标题 。 

© 添加 x 轴 标 签 。 

@ 添加 y 轴 标 签 。 

O 按 列 定 义 绘图 模式 〈 线 图 、 散 点 图 等 )。 
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O 按 列 定义 作为 散 点 的 符号 。 
@ 设 定 所 有 散 点 的 大 小 。 
O 按 列 指定 绘图 颜色 。 





ATime Series Plot 


140 


120 


80 


value 


60 





Jan 2019 Mar 2019 May 2019 Jul 2019 Sep 2019 Nov 2019 Jan 2020 


date 
7-23 DataFrame 对 象 两 列 的 线 图 ( 定制 ) 


与 matplotlib 类 似 ，plotly 允许 使 用 不 同 的 绘图 类 型 。 通 过 Cufflinks 使 用 的 绘图 类 型 包 
ff chart, scatter, bar, box 、spread , ratio , heat map , surface , histogram , bubble , bubble3d、 
scatter3d scattergeo, ohlc, candle, pie 和 choropleth。 接 下 来 介绍 一 种 不 同 于 线 图 的 
绘图 类 型 一 一 直方 图 ( 见 图 7-24 ): 


In [52]: plyo.iplot ( 
df.iplot (kind="hist', © 
subplots=True, @ 
bins=15, © 
asFigure=True), 


























# image='png', 
filename='ply_03' 
) 


o 指定 绘图 类 型 。 
@ 要 求 每 列 有 单独 的 子 图 。 
© 设置 pins 参数 (使 用 的 数据 组 等 于 绘制 的 柱 形 数量 )。 








73 ZEK 2D 绘 医 191 








40 


国 加 回回 国 
tanow 





50 100 





100 











图 7-24 DataFrame 对 象 各 列 的 直方 图 


7.3.2 SMAR 

事实 证 明 ，plotly、Cufflinks 和 pandas 的 组 合 在 处 理 金融 时 间 序 列 数据 时 特别 强大 。 
Cufflinks 提供 创建 典型 金融 图 表 的 功能 ， 并 增加 了 典型 的 金融 图 表 元 素 ， 例 如 相对 强 
弱 指 数 (RSI) 等 。 为 此 ，Cufflinks 创建 了 一 个 QuantFig WR, Cufflinks 可 以 像 
DataFrame 对 象 那 样 根 据 QuantFig 绘制 图 表 。 


本 节 使 用 真实 的 金融 数据 集 、 欧 元 /美元 汇率 的 时 间 序 列 数据 (来 源 : 福 汇 集团 ) 来 进 
行 讲解 : 


In [54]: raw = pd.read_csv('../../source/fxcm_eur_usd_eod_data.csv', 
index_col=0, parse_dates=True) © 





In [55]: raw.info() @ 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 1547 entries, 2013-01-01 22:00:00 to 
2017-12-31 22:00:00 
Data columns (total 8 columns): 





BidOpen 1547 non-null float64 
BidHigh 1547 non-null float64 
BidLow 1547 non-null float64 
BidClose 1547 non-null float64 
AskOpen 1547 non-null float64 
AskHigh 1547 non-null float64 
AskLow 1547 non-null float64 
AskClose 1547 non-null float64 








dtypes: floaté4 (8) 





memory usage: 108.8 KB 


In [56]: quotes = raw[['AskOpen', 'AskHigh', 'AskLow', 'AskClose']] © 
quotes = quotes.iloc[-60:] © 
quotes.tail() © 

Out [56]: AskOpen AskHigh AskLow AskClose 


2017-12-25 22:00:00 1.18667 1.18791 1.18467 1.18587 
2017-12-26 22:00:00 1.18587 1.19104 1.18552 1.18885 
2017-12-27 22:00:00 1.18885 1.19592 1.18885 1.19426 
2017-12-28 22:00:00 1.19426 1.20256 1.19369 1.20092 
2017-12-31 22:00:00 1.20092 1.20144 1.19994 1.20144 


O M CSV 文件 中 读 取 金 融 数 据 。 

Ə 得 到 的 DataFrame 对 象 包含 多 列 和 超过 1500 行 的 数据 。 

© 从 DataFrame 对 象 中 选择 4 列 (开盘 价 、 最 高 价 、 最 低 价 、 收 盘 价 , 或 者 OHLC )。 
@ 只 有 几 行 数据 用 于 可 视 化 。 

O 返回 结果 数据 集 quotes 的 最 后 5 行 。 


在 实例 化 期 间 ，QuantFig 对 象 将 DataFrame 对 象 作 为 输入 ， 可 以 进行 一 些 基 本 的 
定制 。 然 后 ,使 用 qf.iplot () 方 法 ,按照 保存 在 QuantFig 对 象 中 的 数据 来 绘制 图 
K ( 见 图 7-25 ): 











EUR/USD Exchange Rate 
-E EUR/USD 


ny! 


Oct 29 Nov 12 Nov 26 Dec 10 Dec 24 
2017 








7-25 ”美元 /欧元 数据 的 OHLC 图 表 
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In [57]: qf = cf.QuantFig ( 
quotes, © 
title='EUR/USD Exchange Rate', @ 
legend='top', ® 
name='EUR/USD' @ 








) 
In [58]: plyo.iplot ( 
qf.iplot (asFigure=True) , 
# image='png', 
filename='qf_01' 
) 


O 传递 给 QuantFig 对 象 的 用 于 构造 程序 的 DataFrame 对 象 。 
@ 添加 一 个 图 形 标题 。 

© 图 例 放 在 图 表 顶 部 。 

@ 为 数据 集 指定 一 个 名 称 。 


通过 QuantFig 对 象 的 不 同方 法 ,我们 可 以 添加 上 典型 的 金融 图 表 元 素 ， 如 布 林 线 ( 见 
图 7-26 ): 





EUR/USD Exchange Rate 


— BOLL(AskClose,15) -E EUR/USD 





Oct 29 Nov 12 Nov 26 Dec 10 Dec 24 











图 7-26 ”欧元 /美元 数据 的 OHLC AK ( 带 布 林 线 ) 
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In [59]: qf.add_bollinger_bands (periods=15, © 
boll_std=2) @ 


In [60]: plyo.iplot (qf.iplot (asFigure=True), 
# image='png', 
filename='qf_02' 


) 
O 布 林 线 周期 。 
@ 用 于 布 林 线 宽度 的 标准 差 。 
某 些 金融 指标 (如 RSI) 可 以 作为 子 图 添加 (ILA 7-27 ): 





EUR/USD Exchange Rate 


— BOLL(AskClose,15) ——— RSI(AskClose,14) -加 EUR/USD 





Oct 29 Nov 12 Nov 26 Dec 10 Dec 24 











7-27 ”欧元 /美元 数据 的 OHLC AR ( 带 布 林 线 和 RSI 指标 ) 


In [61]: aqf.adq_rsi(periods=14，@D 
showbands=False) @ 


In [62]: plyo.iplot ( 
qf.iplot (asFigure=True) , 
# image='png', 
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filename='qf_03' 
) 


@ 设置 RSI 周期 。 
@ 不 显示 高 线 或 者 低 线 。 


7.4 结语 


我 们 可 以 将 matplotlib 视 为 Python 数据 可 视 化 的 基准 和 主力 ， 它 与 NumPy 和 pandas 紧 
密集 成 ， 其 基本 功能 可 以 轻松 且 方 便 地 访问 。 但 是 ， 另 一 方面 ，matplotlib 是 相当 强大 
的 库 ， 具 有 复杂 的 API， 本 章 中 无 法 概述 matplotlib 的 所 有 功能 。 


本 章 介 绍 了 matplotlib 可 用 于 许多 金融 环境 下 的 基本 2D 和 3D 绘图 函数 。 其 他 章节 提 
供 使 用 这 个 可 视 化 基本 库 的 进一步 示例 。 


此 外 ， 本 章 还 介绍 了 plotly 和 Cufflinks 的 组 合 。 这 一 组 合 可 以 方便 地 创建 D3.js 交互 图 
K, 一 般 来 说 ， 只 需 在 DataFrame 对 象 上 调用 一 个 方法 就 能 实现 。 所 有 技术 细节 都 由 
后 端 完成 。 而 且 ，Cufflinks 以 QuantFig 对 象 的 形式 ， 提 供 了 轻松 创建 包含 流行 金融 指 
标的 典型 金融 图 表 的 方式 。 









































7.5 延伸 阅读 


网 上 可 以 找到 各 种 各 样 的 matplotlib 资源 : 

e = matplotlib 主页 也 许 是 最 好 的 起 点 ; 

e  matplotlib 网 站 上 有 一 个 展厅 ， 其 中 有 许多 实用 示例 ; 
e matplotlib 官网 中 的 2D 绘图 教程 ; 

e matplotlib 官网 中 的 3D 绘图 教程 。 


访问 展厅 已 经 成 为 学 习 matplotlib 的 必 备 过 程 ， 在 那里 可 以 看 到 相应 的 可 视 化 示例 ,并 
从 对 应 的 示例 代码 开始 工作 。 


plotly 和 Cufflinks 软件 包 的 主要 资源 也 在 网 上 : 
e ploty 主页 ; 

e 用 于 Python 的 plotly 教程 ; 

e = Cufflinks GitHub 网 页 。 
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— g PAM 
金融 学 中 最 重要 的 数据 类 型 之 一 是 金融 时 间 序列 。 它 是 以 日 期 和 /或 时 间作 为 索引 的 数 
据 。 例 如 ， 股 价 就 是 金融 时 间 序列 数据 。 类 似 地 ， 欧 元 /美元 汇率 也 是 金融 时 间 序列 数 
据 ; 汇率 在 短暂 的 时 间 间隔 内 报价 ， 一 组 此 类 报价 就 是 汇率 的 时 间 序 列 。 


没有 一 种 金融 学 科 不 将 时 间作 为 重要 因素 考虑 ， 这 和 物理 学 及 其 他 科学 相同 。Python 中 

处 理 时间 序 列 的 主要 工具 是 pandas 库 。pandas 的 主要 作者 Wes McKinney 在 大 型 对 冲 基金 

AQR 资本 管理 公司 任 分 析 师 时 开始 开发 这 个 库 。 可 以 肯定 地 说 , pandas 从 设计 的 一 开始 就 

是 为 了 处 理 金 融 时 间 序 列 数 据 。 

本 章 主 要 基于 两 组 逗号 分 隔 文件 (CSV ) 形式 的 金融 时 间 序 列 数据 ， 按 以 下 顺序 介绍 。 
本 节 介 绍 用 pandas 处 理 金融 时 间 序 列 数据 的 基础 知识 : 数据 导入 、 得 出 汇总 统计 
量 、 随 时 计算 变化 以 及 重新 采样 。 

在 金融 分 析 中 ， 滚 动 统计 起 到 了 重要 的 作用 ， 这 一 般 是 时 间 间 隔 固定 、 并 在 整个 
数据 集中 向 前 滚动 计算 得 出 的 统计 量 。 和 常见 的 例子 是 简单 移动 平均 数 。 本 节 介 绍 
pandas 对 此 类 统计 量 计算 的 支持 。 

RDA 
本 节 介 绍 一 个 基于 金融 时 间 序 列 数据 的 标 普 500 股票 指数 和 VIX 波动 率 指数 的 案例 。 
金融 时 间 序 列 数据 为 这 两 种 指数 负 相关 这 一 典型 (经验 ) 事实 提供 了 某 种 支持 。 
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本 节 使 用 金融 业已 经 很 常见 的 高 频数 据 (或 分 笔 报 价 数据 ) 进行 讲解 。pandas 在 
对 此 类 数据 集 的 处 理 中 再 次 证 明了 自己 的 强大 。 


8.1 金融 数据 

本 节 使 用 的 是 以 CSV 文件 形式 在 本 地 存储 的 金融 数据 集 。 从 技术 上 讲 ，CSYV 文件 是 包 
含 数 据 行 结 构 的 文本 文件 ， 其 特征 是 以 逗号 分 隔 单个 值 。 在 导入 数据 之 前 ， 导 入 一 些 
软件 包 并 进行 定制 : 


In [1]: import numpy as np 

















import pandas as pd 

from pylab import mpl, plt 
plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 


8.1.1 数据 导入 

pandas 提供 不 同 的 函数 和 DataFrame 方法 ， 以 导入 不 同 存 储 格 式 (CSV, SQL. Excel 
等 ) 的 数据 , 并 将 数据 导出 为 不 同 格式 ( 详 见 第 9 章 ) 下 面 的 代码 通过 pd.read_csv () 
函数 导入 CSV 文件 中 的 时 间 序 列 数据 : 


In [2]: filename = '../../source/tr_eikon_eod_data.csv' © 























In [3]: £ = open(filename, 'r') @ 


f.readlines()[:5] @ 
Out [3]: ['Date, AAPL.O,MSFT.O, INTC.O,AMZN.O,GS.N, SPY, .SPX, .VIX, EUR=, XAU=, GDX, 
,GLD\n', 


"2010-01-01,,,,,77,,1.4323,1096.35,,\n', 

"2010-01-04, 30.57282657, 30.95, 20.88, 133.9,173.08,113.33,1132.99,20.04, 
,1.4411,1120.0,47.71,109.8\n', 

"2010-01-05, 30. 625683660000004, 30.96, 20.87,134.69,176.14,113.63,1136.52, 
,19.35,1.4368,1118.65,48.17,109.7\n', 

"2010-01-06, 30.138541290000003, 30.77, 20.8,132.25,174.26,113.71,1137.14, 
,19.16,1.4412,1138.5,49.34,111.51\n'"] 





In [4]: data = pd.read_csv(filename, ® 
index_col=0, @ 
parse_dates=True) © 


In [5]: data.info() © 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 2216 entries, 2010-01-01 to 2018-06-29 























1 ”这 个 文件 包含 不 同 金融 工具 的 日 终 (EOD ) 数据 ， 通 过 Thomson Reuters Eikon Data API 读 取 。 一 一 原 注 
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Data columns 


AAPL.O 





20 
INTC.O 
AMZN .O 





GLD 
dtypes: 


2138 
2138 
2138 
2138 
2138 
2138 
2138 
2138 
2216 
22:11: 
2138 
2138 





non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 








non-null 


float64 (12) 


memory usage: 
O 指定 路 径 和 文件 名 。 
显示 原始 数据 (Linux/Mac ) 的 前 5 行 。 
传递 给 pq .read_scv() 函数 的 文件 名 。 





@ 
© 
@ 指定 第 一 列 作为 索引 处 理 。 
© 
@ 


结果 为 DataFrame 对 象 。 
在 这 一 阶段 ,金融 分 析 师 可 能 首先 观察 数据 ， 对 其 进行 检查 或 者 可 视 化 ( 见 图 8-1 ): 


In [6]: data.head() © 


Out [6]: 


Date 

2010-01-01 
2010-01-04 
2010-01-05 
2010-01-06 
2010-01-07 


Date 

2010-01-01 
2010-01-04 
2010-01-05 
2010-01-06 
2010-01-07 


225.1 KB 














指定 索引 值 为 datetime 类 型 。 


(total 12 column 


floa 
floa 
floa 
floa 
floa 
floa 
floa 
floa 
float 
floa 








floa 


t64 
t64 
t64 
t64 
t64 
t64 
t64 
t64 
t64 


t64 
t64 


s): 


64 








AAPL.O MSFT.O INTC.O AMZN.O GS.N 


NaN NaN 
30.572827 30.950 
30.625684 30.960 
30.138541 30.770 
30.082827 30.452 





1.4323 
1.4411 
1.4368 
1.4412 
1.4318 


In [7]: data.tail() @ 


Out [7]: 


Date 
2018-06-25 


EUR= 


XAU= 


1096.35 
1120.00 
1118.65 
1138.50 
1131.90 


NaN 
20.88 
20.87 
20.80 
20.60 


GDX 


NaN 
47.71 
48.17 
49.34 
49.10 


NaN 
133.90 
134.69 
132.25 
130.00 


GLD 


NaN 
109.80 
109.70 
111.51 
110.82 


AAPL.O MSFT.O INTC.O AMZN.O 


182.17 


T73 
176 
174 
1E; 


GS 


NaN 
.08 
14 
.26 
OFF 


N 


SPY . SPX 


TT32:33 
113-563 
E321 
114.19 


SPY 


NaN NaN 


.VIX \ 


NaN 


1132.99 20.04 
1136.52 19.35 
1137.14 19.16 
1141.69 19.06 


SPX .VIX \ 


98.39 50.71 1663.15 221.54 271.00 2717.07 17.33 
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2018-06-26 184.43 99.08 49.67 1691.09 221.58 271.60 2723.06 15.92 

2018-06-27 184.16 97.54 48.76 1660.51 220.18 269.35 2699.63 17.91 

2018-06-28 185.50 98.63 49.25 1701.45 223.42 270.89 2716.31 16.85 

2018-06-29 185.11 98.61 49.71 1699.80 220.57 271.28 2718.37 16.09 
EUR= XAU= GDX GLD 

Date 

2018-06-25 1.1702 1265.00 22.01 119.89 

2018-06-26 1.1645 1258.64 21.95 119.26 

2018-06-27 1.1552 1251.62 21.81 118.58 

2018-06-28 1.1567 1247.88 21.93 118.22 

2018-06-29 1.1683 1252.25 22.31 118.65 

In [8]: data.plot(figsize=(10, 12), subplots=True); © 
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图 8-1 以 线 图 表示 的 金融 时 间 序 列 数据 
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Z= 


前 5 行 。 
最 后 5 行 显示 。 








ts 


ee 








j 


Tn [于 0] for- Tic; 


AAPL. 
MSFT. 
INTC. 
AMZN. 


GS .N 


.VIX 
EUR= 
XAU= 
GDX 
GI 





8.1.2 ”汇总 统计 


语句 通过 多 个 子 


里 使 用 的 数据 来 自 Thomson Reuters (TR) Eikon Data API. TR 金融 工具 代码 称 作 路 透 
RIC 表示 的 金融 工具 为 : 


= ['Apple Stock', 
"Intel Stock', 





全 融 工 具 代 码 (RIC). 


In [9]: instruments 





图 来 可 视 化 整 


Intel Stock 
Amazon Stock 
Goldman Sachs Stock 

SPDR S&P 500 ETF Trust 


S&P 500 Index 





个 数据 集 。 


"Microsoft Stock', 


"Amazon Stock', 'Goldman Sachs Stock', 
"SPDR S&P 500 ETF Trust', 'S&P 500 Index', 

"VIX Volatility Index', 'EUR/USD Exchange Rate', 
"Gold Price', 
"SPDR Gold Trust '] 


"VanEck Vectors Gold Miners ETF', 


name in zip(data.columns, instruments): 
print ('{:8s} | {}'. format (ric, name) ) 

Apple Stock 

Microsoft Stock 


VIX Volatility Index 
EUR/USD Exchange Rate 
Gold Price 


Vanl 
SPD 








Eck Vectors Gold Miners ETF 
R Gold Trust 





金融 分 析 师 采取 的 下 一 个 步骤 是 观察 不 同 的 数据 集 汇 总 统计 ， 从 而 对 其 有 个 总 体 的 “感觉 ”: 





In [11]: data.info() 


o 





<class 
DatetimeIndex: 
Data columns 
AAPL. 2138 
MSFT. 2138 
INTC. 2138 
AMZN. 2138 
GS.N 2138 
SPY 2138 
.SPX 2138 
VIX 2138 
EUR= 2216 


non-nu 


non-null 


non-null 


non-null 


non-null 


non-null 


non-null 


non-null 


non-null 





"pandas.core.frame.Da 
2216 entries, 
(total 12 col 








Mh Fh Fh Fh Fh Fh mh Fh mh 


taFrame'> 
2010-01-01 to 2018-06-29 


umns): 


t64 
t64 
t64 
t64 
t64 
t64 
t64 
t64 
t64 
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XAU= 2211 non-null float64 


GDX 2138 non-null float64 
GLD 2138 non-null float64 
dtypes: floaté64 (12) 


memory usage: 


225.1 KB 


In [12]: data.describe().round(2) @ 














.00 
.46 


38 . 
130. 
18. 
100. 
117. 
124. 
139. 
184. 


Out [12]: 
AAPL.O MSFT.O INTC.O AMZN.O 
Count 2138.00 2138.00 2138.00 2138 
mean 93.46 44.56 29.36 480 
std 40.55 19.53 BSTR B72: 
min 27.44 23:01, 17.66 108. 
25% 60.29 28.57 22751 273. 
50% 90.55 39.66 ZTEI “B22: 
75% 117.24 54.37 34.71 698. 
max 193.98 102.49 57081750% 
EUR= XAU= GDX 
count 2216.00 2211.00 2138.00 21 
mean 1.25 1349.01 33. 57 
std 0.11 188.75 L557 
min 1.04 1051.36 12.47 
25% i 227 3:53: 22.14 
50% L277) 12925564 25.62 
15% 1.35 1428.24 48.34 
max 1.48 1898.99 66.63 
O info() 给 出 DataF rame 对 象 的 相关 元 信息 。 








@ describe () 提供 每 列 的 实用 标准 统计 量 。 


敏锐 的 洞察 力 





GS.N 





.00 
.22 
.48 
.70 
.61 
.43 
+43 
.38 


2138 
180 


48 . 


102 


133. 
186. 
210. 
286. 


SPY 
.00 
132 
19 
.20 
99 
32 
99 
58 


. SPX 


2138 


1022 
1338 


.00 
1802 . 
483. 
.58 
EOT 
1863. 
2108. 
2872. 


71 
34 


08 
94 
87 


.VIX \ 


2138. 
L73 


13. 
15. 
19. 
48. 


pandas 提供 了 许多 方法 (如 info 和 qdqescribe )， 可 以 获得 新 导入 的 
金融 时 间 序 列 数据 集 的 简单 概况 。 它 们 还 能 快捷 地 检查 导入 程序 是 否 按 


RE RUA, (例如 ，DataFrame 对 象 是 否 真正 包含 DatetimeIndex 


类 型 的 索引 )。 





当然 ，pandas 也 提供 自 定义 统计 类 型 及 显示 方式 的 选项 : 


In [13]: data.mean() © 





Out [13]: AAPL.O 93 
MSFT.O 44 
INTC.O 29 
AMZN.O 480 


- 455973 
-561115 
- 364192 
-461251 
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GS.N 170.216221 


SPY 180.323029 
.SPX 1802.713106 
VIX 17.027133 
EUR= 1.248587 
XAU= 1349.014130 
GDX 33.566525 
GLD 130.086590 





dtype: float64 





In [14]: data.aggregate([min, @ 
np.mean, © 





np.std, @ 
np.median, © 
max] © 
) .round (2) 
Out [14] : 
AAPL.O MSFT.O INTC.O AMZN.0O GS.N SPY .SPX .VIX EUR= \ 
min 27.44 23.01 17.66 108.61 87.70 102.20 1022.58 9.14 1.04 
mean 93.46 44.56 29.36 480.46 170.22 180.32 1802.71 17.03 1,25 
std 40.55 19.53 8.17 372.31 42.48 48.19 483.34 5.88 TL 
median 90.55 39.66 27.33 322.06 164.43 186.32 1863.08 15.58 1.27 
max 193.98 102.49 57.08 1750.08 273.38 286.58 2872.87 48.00 1.48 
XAU= GDX GLD 
min 1051.36 12.47 100.50 
mean 1349.01 33.57 130.09 
std 188.75 15.17 18.78 
median 1292.61 25.62 124.00 
max 1898.99 66.63 184.59 
@ 每 列 均值 。 
@ 每 列 最 小 值 。 
© 每 列 均值 。 
O 每 列 标准 差 。 
O 每 列 中 位 数 。 
O 每 列 最 大 值 。 


使 用 aggregate () 方 法 还 可 以 传递 自 定义 函数 。 


8.1.3 随时 间 推 移 的 变化 
统计 分 析 方法 往往 基于 随时 间 推移 的 变化 ， 而 不 是 绝对 值 。 计 算 时 间 序 列 中 的 随时 变 

















8.1 金融 数据 203 


化 有 多 种 选择 ， 包 括 绝对 偏差 、 变 化 率 和 对 数 回报 率 。 
首先 介绍 绝对 偏差 ，pandas 为 此 提供 了 一 个 特殊 的 方法 : 


In [15]: data.diff().head() © 





AAPL.O MSFT.O INTC.O AMZN.O GS.N SPY .SEX .VIX EUR= \ 


Out [15 
Date 
2010-01-01 NaN NaN 
2010-01-04 NaN NaN 


2010-01-05 0.052857 0.010 
2010-01-06 -0.487142 -0.190 
2010-01-07 -0.055714 -0.318 











XAU= GDX 





NaN 
NaN 
-0.01 
-0.07 
-0.20 


GLD 


NaN 
NaN 
<LO 
.81 
.69 


Date 
2010-01-01 NaN NaN 
2010-01-04 23.65 NaN 
2010-01-05 -1.35 0.46 -0 
2010-01-06 19.85 1.17 1 
2010-01-07 -6.60 -0.24 -0 
In [16]: data.diff().mean() @ 
Out [16]: AAPL.O 0.064737 
MSFT.O 0.031246 
INTC.O 0.013540 
AMZN.O 0.706608 
GS.N 0.028224 
SPY 0.072103 
SPX 0.732659 
.VIX -0.019583 
EUR= -0.000119 
XAU= 0.041887 
GDX -0.015071 
GLD -0.003455 
dtype: float64 
O diff () 提供 两 个 索引 值 之 间 的 绝对 变化 。 








@ 当然 ， 还 可 以 应 用 聚合 运算 。 














从 统计 学 角度 





NaN NaN NaN NaN NaN NaN 
NaN NaN NaN NaN NaN 0.0088 
0.79 3.06 0.30 3.53 -0.69 -0.0043 
-2.44 -1.88 0.08 0.62 -0.19 0.0044 
-2.25 3.41 0.48 4.55 -0.10 -0.0094 


， 绝 对 变化 不 是 最 优 的 ， 因 为 它们 与 时 间 序 列 数据 本 身 的 比例 相关 。 


因此 ， 我 们 通常 更 偏重 变化 率 。 下 面 的 代码 可 以 计算 金融 环境 里 的 变动 率 或 者 回报 率 








( 也 称 为 简单 回报 率 )， 并 对 其 每 列 的 平均 值 进 行 可 视 化 ( 参见 图 8-2 ): 
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In [17] 
Out [17] 


In [18]: 


Date 


2010- 
2010- 
2010- 
2010- 
2010- 





Date 


2010-01-01 
2010-01-04 
2010-01-05 
2010-01-06 
2010-01-07 





data. 


01-01 
01-04 
01-05 
01-06 
01-07 


data.pct_change() .mean() .plot (kind='bar', 


pct_change(). 


AAPL.O MSFT.O 


round(3).head() © 


INTC.O AMZN.O GS.N 


NaN NaN NaN NaN NaN 
NaN NaN NaN NaN NaN 
0.002 0.000 -0.000 0.006 0.018 
0.016 -0.006 -0.003 -0.018 -0.011 
-002 -0.010 -0.010 -0.017 0.020 
XAU= GDX GLD 
NaN NaN NaN 
0.022 NaN NaN 
-0.001 0.010 -0.001 
0.018 0.024 0.016 
-0.006 -0.005 -0.006 


O pct_change () 计算 两 个 索引 值 之 间 的 变化 率 。 
@ 将 结果 的 均值 可 视 化 为 一 个 柱状 图 。 


S 


N 
N 


0.0 
0.0 
0.0 


PY .SEX .VIX EUR= \ 
aN NaN NaN NaN 
aN NaN NaN 0.006 
03 0.003 -0.034 -0.003 


01 0.001 -0.010 0.003 
04 0.004 -0.005 -0.007 


figsize=(10, 6)); @ 











0.0030 

0.0025 

0.0020 

0.0015 

0.0010 

0.0005 站 

0.0000 图 图 J mn = e = 
o 9 ee Zz è K B 4 4 HK 9 
> E E Š 8 = a g > 3 © © 
S n Zz 三 [3] 

2 < 
图 8-2 ”变化 率 均值 柱状 图 


对 数 回报 率 可 作为 回报 率 的 替代 品 。 在 某 些 情况 下 ， 它 们 更 容易 处 理 ， 因 此 在 金融 环 
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境 中 往往 优先 使 用 对 数 回报 率 。， 





图 8-3 展示 了 单个 金融 时 间 序 列 的 累计 对 数 回报 率 。 


这 种 类 型 的 图 表 导 致 了 某 种 形式 的 




















规范 化 : 
— AAPL.O 
=- MSFT.O À 
10 — INTC.O 
— AMZN.O 
= GSN 
8 = SPY 
=- SPX 
—- VIX 
—— EUR= 
6 — XAU= 
—— GDX 
—- GLD 
4 
2 
0 
2010 2011 2012 2013 2014 2015 2016 2017 2018 
Date 
图 8-3 ”一 段 时 间 的 累计 对 数 回报 率 
In [19]: rets = np.log(data / data.shift(1))@® 
In [20]: rets.head().round(3) @ 
Out [20]: 
AAPL.O MSFT.O INTC.O AMZN.O GS.N SPY .SPX .VIX EUR= \ 
Date 
2010-01-01 NaN NaN NaN NaN NaN NaN NaN NaN NaN 
2010-01-04 NaN NaN NaN NaN NaN NaN NaN NaN 0.006 
2010-01-05 0.002 0.000 -0.000 0.006 0.018 0.003 0.003 -0.035 -0.003 
2010-01-06 -0.016 -0.006 -0.003 -0.018 -0.011 0.001 0.001 -0.010 0.003 
2010-01-07 -0.002 -0.010 -0.010 -0.017 0.019 0.004 0.004 -0.005 -0.007 
XAU= GDX GLD 
Date 
2010-01-01 NaN NaN NaN 
2010-01-04 0.021 NaN NaN 





1 对 数 回报 率 的 优点 之 一 是 可 以 在 一 段 时 间 里 累加 ， 这 对 于 简单 变化 率 /回报 率 不 适用 。 一 一 原 注 
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2010-01-05 -0.001 0.010 -0.001 
2010-01-06 0.018 0.024 0.016 
2010-01-07 -0.006 -0.005 -0.006 


In [21]: rets.cumsum().apply(np.exp) .plot (figsize=(10, 6)); © 
@ 以 向 量 的 方式 计算 对 数 回报 率 。 
@ 结果 的 一 个 子 集 。 
© 绘制 一 段 时 间 的 累计 对 数 回报 率 图 表 ; 首先 调用 cumsum () 方法 ， 然 后 对 结果 应 用 
np.exp()。 


8.1.4 重新 采样 


重新 采样 是 金融 时 间 序 列 数据 的 重要 操作 之 一 ， 通 常 采用 向 下 采样 的 形式 ， 例 如 ， 分 
笔 交 易 数 据 序 列 重新 采样 的 时 间 间 隔 为 一 分 钟 ， 也 可 以 将 每 日 观察 数据 的 时 间 序 列 重 
新 采样 为 每 周 或 者 每 月 观察 数据 ( 如 图 8-4 所 示 ): 


In [22]: data.resample('lw', label='right').last().head() © 

































































Out [22 
AAPL.O MSFT.O INTC.O AMZN.O GS.N SPY .SEX .VIX \ 
Date 
2010-01-03 NaN NaN NaN NaN NaN NaN NaN NaN 


2010-01-10 30.282827 30.66 20.83 133.52 174.31 114.57 1144.98 18.13 
2010-01-17 29.418542 30.86 20.80 127.14 165.21 113.64 1136.03 17.91 
2010-01-24 28.249972 28.96 19.91 121.43 154.12 109.21 1091.76 27.31 
2010-01-31 27.437544 28.18 19.40 125.41 148.72 107.39 1073.87 24.62 








EUR= XAU= GDX GLD 
Date 
2010-01-03 1.4323 1096.35 NaN NaN 
2010-01-10 1.4412 1136.10 49.84 111.37 
2010-01-17 1.4382 1129.90 47.42 110.86 
2010-01-24 1.4137 1092.60 43.79 107.17 
2010-01-31 1.3862 1081.05 40.72 105.96 


In [23]: data.resample('1lm', label='right').last().head() @ 
Out [23 
AAPL.O MSFT.O INTC.O AMZN.O GS.N SPY .SPX \ 
Date 

2010-01-31 27.437544 28.1800 19.40 125.41 148.72 107.3900 1073.87 
2010-02-28 29.231399 28.6700 20.53 118.40 156.35 110.7400 1104.49 
2010-03-31 33.571395 29.2875 22.29 135.77 170.63 117.0000 1169.43 
2010-04-30 37.298534 30.5350 22.84 137.10 145.20 118.8125 1186.69 
2010-05-31 36.697106 25.8000 21.42 125.46 144.26 109.3690 1089.41 
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In [24]: rets.cumsum() .apply (np.exp) . 


Date 

2010-01-31 24.62 
2010-02-28 19.50 
2010-03-31 17.59 
2010-04-30 22.05 
2010-05-31 32.07 


PPP RP Pe 





EUR= 


. 3862 
«36259 
-3510 
3295 
“2305 


XAU= 


1081. 
1116. 
1112. 
1178. 
1215. 


@ 日 终 数据 以 一 周 为 时 间 间 隔 重新 采样 。 


@ 以 一 月 为 时 间 间 隔 重新 采样 。 


© 这 就 绘制 了 随时 间 变 化 的 累计 对 数 回报 率 图 表 : 首先 调用 cumsum () ， 然 后 对 
应 用 np .exp () ， 最 后 进行 重新 采样 。 


05 
10 
80 
25 
71 


) .plot (figsize=(10, 


40. 
43. 
44, 
50. 
49. 


GDX 


72 
89 
41 
51 
86 


105. 
109. 
108. 
二 二 SS 
118. 


GLD 


960 
430 
950 
360 
881 


resample ('1m', 


© 


label='right').last ( 
6)); 























—— AAPL.O 
10 = 
8 — 
; Smi 
4 
2 
0 
2010 2011 2012 2013 2014 2015 2016 2017 2018 
Date 
图 8-4 重 采 样 的 累计 对 数 回报 率 图 表 ( 每 月 ) 
避免 预见 偏差 
在 很 多 情况 下 ,pandas 在 重新 采样 时 默认 使 用 区 间 的 左 侧 标签 ( 或 者 索引 
值 )。 为 了 在 金融 业务 中 保持 一 致 ， 请 确保 使 用 右 标签 (索引 值 ) 一 一 一 
般 是 区 间 内 最 后 一 个 可 用 数据 点 。 否 则 ， 金 融 分 析 中 可 能 潜藏 着 预见 
偏差 。 
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8.2 滚动 统计 


























使 用 滚动 统计 〈 也 称 作 金 融 指标 或 者 金融 研究 指标 ) 是 金融 业 的 传统 。 例 如 ， 滚 
本 








动 统计 是 金融 图 表 绘 制 者 和 技术 派 交 易 者 的 基本 工具 。 


序列 : 





节 只 使 用 单个 金融 时 间 





In [25]: sym = 'AAPL.O' 


In [26]: data = pd.DataFrame (data[sym] ) .dropna () 


In [27]: data.tail() 





Out [27]: 
Date 
2018-06-25 
2018-06-26 
2018-06-27 
2018-06-28 
2018-06-29 


8.2.1 概述 


AAPL.O 


182.17 
184.43 
184.16 
185.50 
185.11 


用 pandas 计算 标准 滚动 统计 量 很 简单 : 




















In [28]: window = 20 © 

In [29]: data['min'] = data[sym] .rolling(window=window) .min() @ 

In [30]: data['mean'] = data[sym].rolling(window=window).mean() © 

In [31]: data['std'] = data[sym] .rolling (window=window).std() @ 

In [32]: data['median'] = data[sym].rolling(window=window) .median() © 
In [33]: data['max'] = data[sym] .rolling (window=window) .max() © 

In [34]: data['ewma'] = data[sym] .ewm(halflife=0.5, min_periods=window) .mean() @ 

















计算 滚动 最 小 值 。 
计算 深 动 平均 值 。 
计算 深 动 标准 差 。 


© © © © 


定义 计算 窗口 ， 也 就 是 包含 的 索引 值 。 
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计算 滚动 中 位 值 。 
计算 滚动 最 大 值 。 
计算 指数 加 权 移 动 平均 值 ， 半 衰 期 为 0.5。 


要 得 到 更 专业 的 金融 指标 , 通常 需要 使 用 其 他 软件 包 ( 例如 , 第 7 章 中 介绍 的 Cufflinks 
金融 图 表 )。 你 也 可 以 通过 apply O 方法 简单 地 应 用 定制 的 方法 。 


下 面 的 代码 显示 结果 的 一 个 子 集 ， 并 对 一 组 计算 出 的 深 动 统计 量 进行 可 视 化 ( 见 图 8-5 ): 


@ 0 © 



































图 8-5 最 小 值 、 均 值 、 最 大 值 的 滚动 统计 


In [35]: data.dropna() .head () 
Out [35]: 
AAPL.O min mean std median max \ 
Date 

2010-02-01 27.818544 27.437544 29.580892 0.933650 29.821542 30.719969 
2010-02-02 27.979972 27.437544 29.451249 0.968048 29.711113 30.719969 
2010-02-03 28.461400 27.437544 29.343035 0.950665 29.685970 30.719969 
2010-02-04 27.435687 27.435687 29.207892 1.021129 29.547113 30.719969 
2010-02-05 27.922829 27.435687 29.099892 1.037811 29.419256 30.719969 


ewma 








Date 

2010-02-01 27.805432 
2010-02-02 27.936337 
2010-02-03 28.330134 
2010-02-04 27.659299 
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2010-02-05 27.856947 


In [36]: ax = data[['min', 'mean', 'max']].iloc[-200:].plot ( 
figsize=(10, 6), style=['g--', 'r--', 'g--'], lw=0.8) © 
data[sym].iloc[-200:].plot(ax=ax, lw=2.0); @ 


O 为 最 后 200 行 数据 绘制 3 个 滚动 统计 量 的 图 表 。 
@ 在 图 表 中 添加 原始 时 间 序 列 数据 。 


8.2.2 ”技术 分 析 示 例 

滚动 统计 是 所 谓 股票 “技术 分 析 ” 中 的 重要 工具 之 一 ， 技 术 分 析 是 与 “基本 面 分 析 ” 相 
对 的 分 析 方 法 ， 后 者 主要 关注 所 分 析 股 票 的 财务 报表 和 公司 的 战略 地 位 。 一 种 基于 技术 
分 析 的 交易 策略 已 经 有 数 十 年 的 历史 ， 它 使 用 两 种 简单 移动 平均 数 ( SMA ) 来 实现 。 具 
体 思路 是 ， 交 易 者 应 该 在 短期 SMA 高 于 长 期 SMA 时 买 进 股票 (或 者 金融 工具 )， 而 在 
相反 的 情况 下 卖 出 。 这 些 概念 可 以 利用 pandas 和 DataFrame 对 象 的 能 力 精确 地 实现 。 


深 动 统计 量 通常 只 在 窗口 (window ) 参数 指定 的 时 期 内 有 足够 数据 的 时 候 计 算 。 如 
图 8-6 所 示 ，SMA 时 间 序 列 在 指定 参数 有 足够 数据 的 那 一 天 才 开 始 : 



































100 





25 


ba 


o Ss f 2 © A] ò 
a a W? > 9 as” > 49> > 


Date 


8-6 ”苹果 公司 股价 和 两 条 简单 平均 线 








In [37]: data['SMA1'] = data[sym] .rolling (window=42).mean() © 


In [38]: data['SMA2'] = data[sym] .rolling (window=252).mean() @ 


In [39]: data[[sym, 'SMA1', 'SMA2']].tail() 
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Out [39]: AAPL.O SMA1 SMA2 
Date 
2018-06-25 182.17 185.606190 168.265556 
2018-06-26 184.43 186.087381 168.418770 
2018-06-27 184.16 186.607381 168.579206 
2018-06-28 185.50 187.089286 168.736627 
2018-06-29 185.11 187.470476 168.901032 





In [40]: data[[sym, 'SMA1', 'SMA2']].plot(figsize=(10, 6)); ® 


@ 计算 短期 SMA 值 。 
@ 计算 长 期 SMA 值 。 
© 可 视 化 股价 数据 和 两 个 SMA 时 间 序 列 。 


在 这 种 背景 下 ，SMA 只 是 一 种 手段 。 它 用 来 算出 实施 某 种 交易 策略 的 头寸 。 图 8-7 H, 
值 1 表示 多 头头 寸 ， 值 -1 表示 空头 头寸 。 如 果 表 示 SMA 时 间 序 列 的 两 条 线 出 现 交 又 ， 
则 触发 头 才 的 变化 〈 从 视觉 上 ): 
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图 8-7 苹果 公司 股价 、 两 条 简单 移动 平均 线 及 头寸 


In [41]: data.dropna (inplace=True) © 


In [42]: data['positions'] = np.where(data['SMA1'] > data['SMA2'], @ 
1, © 
-1) © 
In [43]: ax = data[[sym, 'SMA1', 'SMA2', 'positions']].plot (figsize=(10, 6), 
secondary_y="positions') 
ax.get_legend() .set_bbox_to_anchor((0.25, 0.85)); 
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@ 只 保留 完整 的 数据 行 。 

@ 如 果 短 期 SMA 值 大 于 长 期 SMA 值 。 
© 买 进 股票 (加 入 值 1 )。 

@ 否则 ， 卖 出 股票 (加 入 值 -1 )。 


本 例 得 出 的 交易 策略 只 能 导致 少数 交易 : 只 有 在 头寸 值 变化 ( 两 条 线 发 生 交叉 ) 时 才 
进行 交易 。 将 开始 与 结束 的 交易 包含 在 内 ， 总 共 只 进行 了 6 次 交易 。 


8.3 ”相关 分 析 


为 了 进一步 说 明 pandas 和 人 金融 时 间 序 列 数据 的 使 用 , 考虑 标 普 500 股票 指数 和 VIX 波 
动 率 指数 的 情况 。 典 型 事实 是 ， 当 标 普 500 指数 上 升 时 ，VIX 通常 下 降 ， 反 之 亦 然 。 
这 是 一 种 “相关 ”， 而 不 是 因果 关系 。 本 节 说 明 如 何 为 “ 标 普 500 与 VIX (高 度 ) 负 相 
关 ” 这 一 典型 事实 提供 某 些 支持 性 的 统计 学 证 据 。” 


8.3.1 数据 
数据 集 现在 包括 两 个 金融 时 间 序 列 ， 在 图 8-8 中 它们 都 已 可 视 化 : 



































pp ays 


ome .VIX 


ae oe os oe” A oe” Ry RS X? 
Date 


8-8 R% 500 和 VIX 时 间 序 列 数据 ( 不 同 子 图 ) 


























1 造成 这 一 事实 的 原因 之 一 是 ， 股 票 指数 下 跌 〈 例如 在 一 场 危 机 期 间 )， 交 易 量 上 升 ， 波 动 率 也 随 之 
上 升 。 股 票 指数 上 涨 , 投资 者 通常 保持 镇 静 ， 没 有 看 到 太 多 进行 频繁 交易 的 刺激 因素 。 特 别 是 ， 只 做 
多 的 投资 者 此 时 会 努力 地 进一步 利用 这 个 趋势 。 一 一 原 注 
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In [44]: raw = pd.read_csv('../../source/tr_eikon_eod_data.csv', 
index_col=0, parse_dates=True) © 


In [45]: data = raw[['.SPX', '.VIX']].dropna() 


In [46]: data.tail() 











Date 

2018-06-25 2717.07 17.33 
2018-06-26 2723.06 15.92 
2018-06-27 2699.63 17.91 
2018-06-28 2716.31 16.85 
2018-06-29 2718.37 16.09 


In [47]: data.plot (subplots=True, figsize=(10, 6)); 
@ 从 CSV 文件 读 取 日 终 数据 (来 源 于 Thomson Reuters Eikon Data API )。 


在 单一 图 表 上 绘制 两 个 时 间 序 列 ( 的 部 分 )， 并 使 用 调整 的 刻度 后 ， 通 过 图 8-9 可 明显 
地 看 出 两 种 指数 之 间 负 相关 的 典型 事实 。 


In [48]: data.loc[:'2012-12-31'] .plot (secondary_y='.VIX', figsize=(10, 6));© 


O .loc[:DATE] 选择 DATE 值 指 定 日 期 之 前 的 数据 。 
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图 8-9 标 普 500 和 VIX 时 间 序 列 数据 ( 同一 图 表 ) 


8.3.2 ”对 数 回 报 率 
前 面 已 经 指出 ， 统 计 分 析 通 常 依 靠 回 报 率 而 不 是 绝对 变化 或 者 绝对 价值 。 因 此 ， 我 们 
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将 在 进行 进一步 分 析 之 前 先 计算 对 数 回 报 率 。 图 8-10 展示 了 一 段 时 间 里 对 数 回报 率 的 
大 幅 波动 。 对 于 这 两 种 指数 ， 都 可 以 发 现 所 谓 的 “波动 聚集 性 ”。 一 般 来 说 ， 股 票 指数 
的 高 变动 周期 与 波动 率 指 数 中 的 变动 较为 同步 : 


In [49]: rets = np.log(data / data.shift(1)) 


In [50]: rets.head() 

Out [50]: - SPX „VIX 
Date 
2010-01-04 NaN NaN 
2010-01-05 0.003111 -0.035038 
2010-01-06 0.000545 -0.009868 
2010-01-07 0.003993 -0.005233 
2010-01-08 0.002878 -0.050024 


In [51]: rets.dropna(inplace=True) 


In [52]: rets.plot (subplots=True, figsize=(10, 6)); 
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8-10 一段 时 间 内 标 普 500 5 VIX 的 对 数 回报 率 











在 这 种 情况 下 ，panqas scatter_matrix() 绘 图 函数 对 可 视 化 来 说 很 方便 。 该 函数 
可 绘制 两 个 序列 对 数 回报 率 的 对 比 ， 用 户 可 以 在 对 角 线 上 添加 直方 图 或 者 核 密度 估计 
tt (KDE ) ( JLK] 8-11 ): 


In [53]: pd.plotting.scatter matrix(rets, © 
alpha=0.2, @ 
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diagonal='hist', © 
hist_kwds={'bins': 35}, ® 
figsize=(10, 6)); 


o 绘图 所 用 的 数据 集 。 

@ alpha 参数 指定 点 的 透明 度 。 

O 对 角 线 上 放置 的 图 表 : 列 数据 的 直方 图 。 
O 传递 给 直方 图 绘制 函数 的 关键 字 。 


19999999999999994 
10000000000000004 cae 
0.0 
10000000000000004 
-0.04 
0.06 
0.6 
04 
2 
-0.2 š 


8-11 ”以 散布 矩阵 形式 表示 的 标 普 500 和 VIX 对 数 回 报 率 
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8.3.3 OLS 回归 


做 了 以 上 这 些 准 备 之 后 ， 就 可 以 方便 地 实施 普通 最 小 二 乘 COLS) 回归 了 。 图 8-12 展 
示 了 对 数 回报 率 的 散 点 图 ， 以 及 穿 过 “点 云 ” 的 线性 回归 线 。 这 条 直线 的 斜率 明显 为 
负 ， 为 两 个 指数 负 相 关 的 典型 事实 提供 了 支持 : 


In [54]: reg = np.polyfit (rets['.SPX'], rets['.VIX'], deg=1) © 





In [55]: ax = rets.plot (kind='scatter', x='.SPX', y='.VIX', figsize=(10, 6)) @ 
ax.plot (rets['.SPX'], np.polyval(reg, rets['.SPX']), 'r', lw=2); ® 


@ 实施 线性 OLS 回归 。 
@ 绘制 对 数 回 报 率 散 点 图 。 
© 添加 线性 回归 线 。 
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图 8-12 ”以 散布 矩阵 形式 表示 的 标 普 500 和 VIX 对 数 回 报 率 


8.3.4 相关 

最 后 ， 我 们 直接 考虑 相关 的 度量 。 我 们 要 考虑 的 度量 有 两 种 : 静态 度量 考虑 整个 数据 
集 ， 滚 动 度量 显示 一 段 时 间 内 固定 窗口 上 的 相关 。 从 图 8-13 可 以 看 出 ， 相 关 度 确实 随 
时 间 而 改变 ， 但 是 在 给 定 参 数 下 ， 它 始终 为 负数 。 这 为 标 普 500 与 VIX 指数 ( 强 ) 负 
相关 的 典型 事实 提供 了 有 力 支持 : 
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E 8-13 标 普 500 5 VIX 之 间 的 相关 度 ( 静态 和 滚动 ) 
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In [56]: 
Out [56]: 
In [57] 


rets.corr() © 

‘SPX .VIX 
.SPX 1.000000 -0.804382 
.VIX -0.804382 1.000000 


: ax = rets['.SPX'].rolling (window=252) .corr ( 


rets['.VIX']).plot(figsize=(10, 6)) @ 


ax.axhline(rets.corr().iloc[0, 1], c='r'); © 


O 整个 DataFrame [FHKE 
@ 绘制 一 段 时 间 的 滚动 相关 度 。 
@ 以 水 平 线 的 形式 在 图 表 上 添加 静态 值 。 


8.4 ”高 频数 据 


本 章 介 绍 的 是 使 用 pandas 进行 的 金融 时 间 序 列 分 析 。 分 时 数据 集 是 金融 时 间 序 列 的 特 
例 。 老 实说 ， 它 们 可 以 或 多 或 少 地 用 相同 方式 处 理 ， 例 如 ， 本 章 迄 今 为 止 使 用 的 日 终 
数据 集 。 用 pandas 导入 这 种 数据 集 通 常 也 相当 快 。 这 个 数据 集 共 有 17 352 行 数据 ( 人参 
SUI 8-14 ): 




















Th 





Tn [59] 


In [61]: 


In [62]: 








Sstime 
# data from FXCM Forex Capital Markets Ltd. 
tick = pd.read_csv('../../source/fxcm_eur_usd_tick_data.csv', 


index_col=0, parse_dates=True) 
CPU times: user 1.07 s, sys: 149 ms, total: 1.22 s 
Wall time: 1.16 s 


: tick.info() 


<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 461357 entries, 2018-06-29 00:00:00.082000 to 2018-06-29 
20:59:00.607000 

Data columns (total 2 columns): 

Bid 461357 non-null float64 

Ask 461357 non-null floaté4 

dtypes: floaté64 (2) 

memory usage: 10.6 MB 





tick['Mid'] = tick.mean(axis=1) © 


tick['Mid'].plot (figsize=(10, 6)); 


@ 计算 每 个 数据 行 的 中 间 价 。 
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图 8-14 ”欧元 /美元 汇率 分 时 数据 


使 用 分 时 数据 通常 需要 对 金融 时 间 序 列 进行 重新 采样 。 下 面 的 代码 重新 采样 分 时 数据 ,得 到 
5 分 钟 线 数据 ( 参见 图 8-15 )。 这 种 数据 此 后 可 用 于 检验 算法 交易 策略 或 者 技术 分 析 : 
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图 8-15 ”欧元 /美元 汇率 的 5 分 钟 线 数据 


In [63]: tick_resam = tick.resample (rule='5min', label='right').last() 


In [64]: tick_resam.head () 
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Out [64]: Bid Ask Mid 


2018-06-29 00:05:00 1.15649 1.15651 1.156500 
2018-06-29 00:10:00 1.15671 1.15672 1.156715 
2018-06-29 00:15:00 1.15725 1.15727 1.157260 
2018-06-29 00:20:00 1.15720 1.15722 1.157210 
2018-06-29 00:25:00 1.15711 1.15712 1.157115 


In [65]: tick_resam['Mid'].plot(figsize=(10, 6)); 


8.5 结语 


本 章 处 理 了 金融 时 间 序 列 ， 这 是 金融 领域 最 为 重要 的 数据 类 型 之 一 。pandas 是 处 理 这 
种 数据 集 的 强大 程序 库 ， 不 仅 可 以 进行 高 效 的 数据 分 析 ， 还 有 很 多 其 他 功能 ， 如 简易 
的 可 视 化 。pandas 也 可 以 从 不 同 来 源 读 取 此 类 数据 集 ， 以 及 将 数据 集 导 出 为 不 同 技术 
文件 格式 ， 后 续 音 节 将 对 此 进行 介绍 。 
































8.6 延伸 阅读 


本 章 所 涉 主题 的 出 色 参 考 书 如 下 : 
e McKinney, Wes (2017). Python for Data Analysis. Sebastopol, CA: O’ Reilly. 
e VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’ Reilly. 
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在 未 掌握 数据 之 前 就 做 出 推测 ， 是 最 大 的 错误 。 
一 一 夏 洛克 。 福 尔 摩 斯 
通用 的 原则 是 ， 不 管 是 在 金融 环境 还 是 其 他 任何 应 用 领域 ， 大 部 分 数据 都 保存 在 硬盘 驱动 
器 (HDD ) 或 者 某 种 形式 的 固定 存储 设备 上 (如 固态 硬盘 SSD 或 者 混合 型 磁盘 驱动 器 )。 
多 年 以 来 ， 设 备 的 存储 容量 稳步 增长 ， 且 每 个 存储 单位 〈 例如 兆 字 节 ) 的 成 本 不 断 下 降 。 
与 此 同时 ， 存 储 数据 量 的 增长 速度 远 远 快 于 典型 的 随机 访问 存储 器 (RAM ) 的 增长 速 
度 ， 即 使 在 最 大 型 的 机 器 上 也 是 如 此 。 这 就 使 得 ， 将 数据 存储 到 磁盘 不 仅 可 以 持久 存 
储 ， 也 可 以 通过 将 数据 从 RAM 交换 到 磁盘 来 弥补 RAM 不 足 的 问题 。 
输入 /输出 (IO ) 操作 通常 是 金融 应 用 和 数据 密集 型 应 用 当中 非常 重要 的 任务 。 它 们 往 
往 代表 着 性 能 关键 计算 的 瓶颈 , 因为 IO 操作 一 般 无 法 以 足够 快 的 速度 将 数据 写 人 RAM! 
和 从 RAM 写 和 磁盘。 在 某 种 意义 上 ，CPU 常常 因为 缓慢 的 IO 操作 而 “ 挨 俄 ”。 
尽管 当今 的 大 部 分 金融 和 企业 分 析 工 作 面 对 的 是 “大 数据 ”( 例如 PB 级 别 ), 但 单一 分 
析 任 务 使 用 的 数据 ( 子 ) 集 通 常 应 该 归 人 “中 ”数据 的 类 别 。 微 软 研究 部 门 的 一 项 研 
究 得 出 了 以 下 结论 : 
我 们 的 测算 和 最 近 的 其 他 工作 表明 ， 现 实 世 界 中 大 部 分 分 析 工 作 处 理 的 输入 
小 于 100GB, 但 是 Hadoop/MapReduce 等 流行 基础 架构 最 初 是 为 PB 级 处 理 设 
计 的 。 

































































一 一 Appuswamy 等 人 (2013) 
至 于 频率 ， 单 一 金融 分 析 任 务 通 常 处 理 的 数据 不 超过 儿 个 GB 一 一 这 是 Python 及 其 科 


























1 在 此 , 我 们 没有 区 分 不 同 级 别 的 RAM 和 处 理 噩 缓存 。 当 前 内 存 架 构 的 最 优 使 用 方法 本 身 就 是 一 个 
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学 栈 中 的 库 (如 NumPy, pandas 和 PyTables ) 最 有 效 的 处 理 能 力 。 这 样 大 小 的 数据 集 也 
可 以 在 内 存 中 分 析 ， 利 用 现在 的 CPU 和 GPU 通常 可 以 获得 很 高 的 速度 。 然 而 ， 数 据 
必须 读 和 人 RAM、 结 果 要 写 入 磁盘 ， 同 时 要 确保 满足 当今 的 性 能 要 求 。 
本 章 介绍 如 下 内 容 。 
Python &X I/0 
Python 有 内 建 的 函数 可 以 进行 序列 化 对 象 、 将 内 容 存储 到 磁盘 、 从 磁盘 将 内 容 读 
入 RAM 等 操作 。 除 此 之 外 ，Python 很 擅长 处 理 文本 文件 和 SQL 数据 库 。NumPy 
也 提供 了 专用 于 快速 存储 和 检索 ndarray 对 象 的 函数 。 


pandas #9 I/O 


pandas 库 提 供 了 丰富 的 便利 函数 及 方法 ， 读 取 以 不 同 格式 存储 的 数据 ( 例如 CSV、 
JSON) ， 并 将 数据 写 人 不 同 格式 的 文件 中 。 


PyTables 49 I/O 


PyTables 使 用 HDF5 标准 实现 了 大 数据 集 的 快速 IO 操作 ; 其 速度 往往 只 受到 所 使 
用 硬件 的 限制 。 


TsTables #97 I/O 
TsTables 是 一 个 在 PyTables 基础 上 开发 的 软件 包 ， 可 以 快速 存储 和 检索 时 间 序 列 数据 。 
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9.1 Python 基本 I/O 


Python 本 吴 自 带 多 种 IO 功能 ， 有 些 为 性 能 进行 了 优化 ， 有 些 则 更 注重 灵活 性 。 不 过 ， 
这 些 功能 既 可 以 方便 地 交互 性 使 用 ， 也 可 以 在 生产 环境 下 使 用 。 


9.1.1 将 对 象 写 入 磁盘 

为 了 以 后 使 用 文档 或 者 与 其 他 人 共享 文档 ， 人 们 可 能 想 将 Python 对 象 存储 到 磁盘 上 。 
办 法 之 一 是 使 用 pickle 模块 。 这 个 模块 可 以 序列 化 大 部 分 Python 对 象 。 序列 化 指 的 是 将 
对 象 ( 层次 结构 ) 转换 为 一 个 字 节 流 ; 反 序列 化 是 相反 的 操作 。 

和 之 前 一 样 ， 首 先导 入 一 些 与 绘图 有 关 的 程序 库 和 定制 设置 : 


In [1]: from pylab import plt, mpl 



































plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 


在 下 面 的 例子 中 ， 我 们 使 用 〈 伪 ) 随机 数据 ， 这 次 将 数据 保存 在 一 个 列表 对 象 中 : 
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In [2]: import pickle © 
import numpy as np 
from random import gauss @ 


In [3]: a = [gauss(1.5, 2) for i in range(1000000)] ® 
In [4]: path = '/Users/yves/Temp/data/' © 


In [5]: pkl_file = open(path + 'data.pkl', 'wb') © 


从 标准 库 中 导入 pickle 模块 。 

导入 gauss 以 生成 正 态 分 布 随 机 数 。 
创建 一 个 较 大 的 列表 对 象 ， 它 包含 随机 数 。 
指定 数据 文件 存储 路 径 。 

为 二 进 制 写 人 模式 (wh ) 打开 文件 。 


亨 列 化 和 反 序 列 化 Python 对 象 的 两 个 重要 函数 是 写 人 对 象 的 dump () 和 将 对 象 加 载 到 
内 存 的 load(): 


In [6]: Stime pickle.dump(a, pkl_file) © 
CPU times: user 37.2 ms, sys: 15.3 ms, total: 52.5 ms 
Wall time: 50.8 ms 





© © © © © 

















=z 





In [7]: pkl_file.close() @ 


In [8]: 11 $path* © 
-rw-r--r-- 1 yves staff 9002006 Oct 19 12:11 
/Users/yves/Temp/data/data.pkl 


In [9]: pkl_file = open(path + 'data.pkl', 'rb') 9 
In [10]: %time b = pickle.load(pkl_file) © 


CPU times: user 34.1 ms, sys: 16.7 ms, total: 50.8 ms 
Wall time: 48.7 ms 

















In [11]: a[:3 

Out[11]: [6.517874180585469, -0.5552400459507827, 2.8488946310833096] 
n [12 b[:3 

Out [12 6.517874180585469, -0.5552400459507827, 2.8488946310833096] 
In [13]: np.allclose(np.array(a), np.array(b)) © 

Out rue 
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序列 化 对 象 a， 并 将 其 保存 到 文件 。 
关闭 文件 。 

显示 磁盘 文件 及 其 大 小 ( Mac/Linux ). 
为 二 进 制 读 模 式 (rb ) 打开 文件 。 

从 磁盘 读 取 对 象 并 反 序 列 化 。 


将 a 和 bb 转换 为 ndarray WR, np.allclose() 验证 两 个 对 象 是 否 包 含 相同 的 
数据 ( 数值 )。 


用 pickle 存储 和 读 取 单个 对 象 相当 简单 ， 那 么 ， 读 取 两 个 对 象 呢 ? 


In [14]: pkl_file = open (path + 'data.pkl', 'whb') 


p 








9 
© 
© 
© 
© 
© 


In [15]: %time pickle.dump(np.array(a), pkl_file) © 
CPU times: user 58.1 ms, sys: 6.09 ms, total: 64.2 ms 
Wall time: 32.5 ms 


In [16]: %time pickle.dump(np.array(a) ** 2, pkl_file) @ 
CPU times: user 66.7 ms, sys: 7.22 ms, total: 73.9 ms 
Wall time: 39.3 ms 


In [17]: pkl_file.close() 


In [18]: 11 Spath* © 
-rw-r--r-- 1 yves staff 16000322 Oct 19 12:11 
/Users/yves/Temp/data/data.pkl 


O 序列 化 a 的 ndarray 版 本 并 保存 。 

@ 序列 化 a 平方 数 的 ndarray 版 本 并 保存 。 
© 文件 现在 的 大 小 大 致 为 此 前 的 两 倍 。 

将 两 个 ndarray 对 象 读 回 内 存 怎 么 样 ? 


In [19]: pkl_file = open (path + 'data.pkl', 'rb') 


In [20]: x = pickle.load(pkl_file) © 
x[:4] 
Out [20]: array([ 6.51787418, -0.55524005, 2.84889463, 5.94489175]) 


In [21]: y = pickle.load(pkl_file) @ 
y[:4] 
Out [21]: array ([42.48268383, 0.30829151, 8.11620062, 35.34173791]) 








In [22]: pkl_file.close() 
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@ 检索 保存 的 第 一 个 对 象 。 

@ 检索 保存 的 第 二 个 对 象 。 

GDA, pickle 按照 先进 先 出 〈FIFO) 原则 保存 对 象 。 这 种 方法 有 一 个 重大 问题 : 没 
有 任何 可 用 的 元 信息 可 以 让 用 户 事先 知道 保存 在 pickle 文件 中 的 是 什么 。 

有 时 候 可 以 采用 一 种 变通 的 方法 : 不 存储 单个 对 象 ， 而 是 存储 包含 所 有 其 他 对 象 的 字 
HL (dict) 对 象 : 


In [23]: pkl_file = open(path + 'data.pkl', 'wb') 
pickle.dump({'x': x, 'y': y}, pkl_file) © 





















































pkl_file.close() 


In [24]: pkl_file = open(path + 'data.pkl', 'rb') 
data = pickle.load(pkl_file) @ 
pkl_file.close() 





for key in data.keys(): 

print (key, data[key] [:4]) 

x 6.51787418 -0.55524005 2.84889463 5.94489175] 
y [42.48268383 0.30829151 8.11620062 35.34173791] 





In [25]: !rm -f $path* 


O 保存 包含 两 个 ndarray 对 象 的 字典 对 象 。 
@ 读 取 字典 对 象 。 


这 种 方法 要 求 我 们 一 次 写 人 和 读 取 所 有 对 象 ， 在 许多 情况 下 ， 人 们 可 能 需要 为 了 更 便 
利 而 容忍 这 个 问题 。 


兼容 性 问题 
使 用 pickle 进行 对 象 序列 化 通常 很 简单 。 但 是 , 它 可 能 造成 一 些 问 


题 ， 例 如 在 菜 个 Python 程序 库 升 级 ， 或 新 版 本 无 法 使 用 旧版 本 的 序 
列 化 对 象 时 。 不 同 平台 和 操作 系统 之 间 共 享 这 些 对 象 也 可 能 带 来 问 
题 。 因 此 ， 通 常 建议 使 用 NumPy 和 pandas 等 程序 库 内 置 的 读 取 和 写 
入 功能 ， 这 将 在 后 面 几 节 里 讨论 。 














9.1.2 读 取 和 写 入 文本 文件 


文本 处理 是 Python 的 优势 之 一 。 实际 上 , 许多 企业 和 科学 用 户 就 将 Python 用 于 这 项 任 
务 。 利 用 Python 人 处理 字 符 串 对 象 和 文本 文件 有 许多 选项 。 


假定 我 们 已 经 生成 了 一 组 相当 大 的 数据 ， 打 算 将 其 保存 为 逗号 分 隔 值 (CSV ) 文件 并 
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共享 。 尽 管 CSV 文件 有 特殊 的 结构 ， 但 是 这 种 文件 本 质 上 还 是 普通 文本 文件 。 下 面 的 
代码 创建 了 一 个 ndarray 对 象形 式 的 模拟 数据 集 ， 还 创建 一 个 DatetimeIndex 对 
象 ， 并 将 两 者 组 合 起 来 保存 为 CSV 文本 文件 : 


In [26]: import pandas as pd 








Th 


In [27]: rows = 5000 © 
a = np.random.standard_normal((rows, 5)).round(4) © 


In [28]: a @ 

Out [28]: array([[-0.0892, -1.0508, -0.5942, 0.3367, 1.508 J, 
2.1046, 3.2623, 0.704 , -0.2651, 0.4461], 

=0. 0482, —0.9221, 021332, 0.1192, 0.77821, 








oer 
0.3026, -0.2005, -0.9947, 1.0203, -0.6578], 
-0.7031, -0.6989, -0.8031, -0.4271, 1.9963], 
2.4573, 2.2151, 0.158 , -0.7039, -1.0337]]) 





In [29]: t = pd.date_range(start='2019/1/1', periods=rows, freq='H') © 


In [30]: t © 
Out [30]: DatetimeIndex(['2019-01-01 00:00:00', '2019-01-01 01:00:00', 
"2019-01-01 02:00:00', '2019-01-01 03:00:00', 
"2019-01-01 04:00:00', '2019-01-01 05:00:00', 
"2019-01-01 06:00:00', '2019-01-01 07:00:00', 
"2019-01-01 08:00:00', '2019-01-01 09:00:00', 


"2019-07-27 22:00:00', '2019-07-27 23:00:00', 
"2019-07-28 00:00:00', '2019-07-28 01:00:00', 
"2019-07-28 02:00:00', '2019-07-28 03:00:00', 
"2019-07-28 04:00:00', '2019-07-28 05:00:00', 
"2019-07-28 06:00:00', '2019-07-28 07:00:00'], 
dtype='datetimeé4[ns]', length=5000, freq='H') 








In [31]: csv_file = open(path + 'data.csv', 'w') © 
In [32]: header = 'date,nol,no2,no3,no4,no5\n' © 


In [33]: csv_file.write(header) © 
Out [33]: 25 











[In [34]: for t_, (nol, no2, no3, no4, nos) in zip(t, a): © 
ais "{},{},{},{}, 43, (}\n'. format (t_, nol, no2, no3, no4, nod) @ 
csv_file.write (s) © 


In [35]: csv_file.close() 
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In [36]: 11 $path* 
-rw-r--r-- 1 yves staff 284757 Oct 19 12:11 
/Users/yves/Temp/data/data.csv 


O 定义 数据 集 行 数 。 

@ 创建 包含 随机 数 的 ndarray WR. 

© 创建 长 度 合适 ( 间隔 为 一 小 时 ) 的 DatetimeIndex 对 象 。 
O 打开 文件 以 便 写 入。 
© 
© 
@ 








定义 标题 行 ( 列 标签 )， 并 将 其 作为 第 一 行 写 人 。 
按 行 合并 数据 。 
字符 串 对 象 。 

O 逐 行 写 人 (附加 到 CSV 文本 文件 )。 


另 一 种 方法 与 上 述 方法 类 似 。 首 先 ， 打 开 现 存 的 CSV 文件 。 其 次 ， 用 文件 对 象 的 
readline () BK readlines () 方 法 逐 行 读 入 其 内 容 : 





In [37]: csv_file = open(path + 'data.csv', 'r') © 


In [38]: for i in range(5): 
print (csv_file.readline(), end='') © 
date,nol,no2,no3,no4,no5 
2019-01-01 00:00:00,-0.0892,-1.0508,-0.5942,0.3367,1.508 
2019-01-01 01:00:00,2.1046,3.2623,0.704,-0.2651,0.4461 
2019-01-01 02:00:00,-0.0482,-0.9221,0.1332,0.1192,0.7782 
2019-01-01 03:00:00,-0.359,-2.4955,0.6164,0.712,-1.4328 














In [39]: csv_file.close() 

In [40]: csv_file = open(path + 'data.csv', 'r') © 
In [41]: content = csv_file.readlines() ® 

In [42]: content[:5] @ 

Out [42]: ['date,nol,no2,no03,no04,no5\n', 


"2019-01-01 00:00:00,-0.0892,-1.0508,-0.5942,0.3367,1.508\n', 
"2019-01-01 01:00:00,2.1046,3.2623,0.704,-0.2651,0.4461\n', 
"2019-01-01 02:00:00,-0.0482,-0.9221,0.1332,0.1192,0.7782\n', 
"2019-01-01 03:00:00,-0.359,-2.4955,0.6164,0.712,-1.4328\n"] 


In [43]: csv_file.close() 


O 打开 文件 以 读 取 (r) 
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逐 行 读 取 文 件 内 容 并 打印 。 
© 用 一 个 步 又 读 取 文 件 内 容 。 
O 结果 是 一 个 列表 对 象 ， 包 含 表 示 所 有 行 的 单独 字符 串 对 象 。 


CSV 文件 很 重要 也 很 常见 ， 因 此 Python 标准 库 中 有 一 个 csv 模块 ， 它 可 以 简化 这 些 文 
件 的 处 理 。csv 模块 有 两 个 很 有 益 的 读 取 器 〈 迭代 器 ) 对 象 ， 可 返回 列表 对 象 或 者 字典 
对 象 的 一 个 列表 : 


In [44]: import csv 

















In [45]: with open (path + 'data.csv', 'r') as f: 
csv_reader = csv.reader(f) © 


lines = [line for line in csv_reader] 





In [46]: lines[:5]@ 

Out [46]: ['date', 'nol', 'no2', 'no3"', 'no4', 'no5'], 
"2019-01-01 00:00:00', '-0.0892', '-1.0508', '-0.5942', '0.3367', 
'1.508'], 
'2019-01-01 01:00:00', '2.1046', '3.2623', '0.704', '-0.2651', 
'0.4461'], 
'2019-01-01 02:00:00', '-0.0482', '-0.9221', '0.1332', '0.1192', 
'0.7782'], 
2019-01-01. 03: 00700": '=02359",.. "3244955", <1.0':6264",- 80.712, 
-1.4328']] 


In [47]: with open (path + 'data.csv', 'r') as f: 
csv_reader = csv.DictReader(f) @ 


lines = [line for line in csv_reader] 


In [48]: lines[:3] @ 


Out [48]: [OrderedDict ([('date', '2019-01-01 00:00:00'), 
(4nol*, *-0.0892"), 
('mo2'; '=1.0508"), 
('no3', '-0.5942'), 
('no4', '0.3367'), 
('no5', '1.508')]), 
OrderedDict ([('date', '2019-01-01 01:00:00'), 


('nol', '2.1046'), 

(62%; “3:.2623"), 

('no3', '0.704'), 

('no4', '-0.2651'), 

('no5', '0.4461')]), 
OrderedDict ([('date', '2019-01-01 02:00:00'), 

('nol', '—0.0482'), 
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"no2', '-0.9221"'), 
"no3', '0.1332"), 
oar, 'O.1LT9I2") 3; 
"no5', '0.7782')])] 


In [49]: !rm -f $path* 


O csv. reader () 将 每 一 行当 成 一 个 列表 对 象 返 回 。 


@ csv.DictReader () 将 每 一 行当 成 OrderedDict (有 序 字 典 ) 对 象 返回 ， 该 对 象 


是 字典 对 象 的 特例 。 


9.1.3 使 用 SQL 数据 库 
Python 可 以 使 用 任何 类 型 的 结构 化 查询 语言 (SQL) 数据 库 ， 通 党 





出 能 处 理 任何 NoSQL 




















数据 库 。 默 认 随 Python 一 同 交 付 的 SQL 数据 库 (关系 数据 库 ) 是 SQLite3。 可 以 利用 


它 来 说 明 Python 处 理 SQL 数据 库 的 方法 : ” 


In [50]: import sqlite3 as sq3 





In [51]: con = sq3.connect (path + 'numbs.db') @ 











In [53]: con.execute (query) © 
Out [53]: <sqlite3.Cursor at 0x102655f10> 














In [54]: con.commit() @ 
In [55]: q = con.execute 9 
In [56]: q('SELECT * FROM sqlite_master') .fetchall () 
Out [56]: [('table', 
'numbs', 
'numbs', 
2, 





'CREATE TABLE numbs (Date date, Nol real, 











@ 打开 一 个 数据 库 连 接 ; 创建 一 个 文件 (如果 不 存在 )。 
@ 这 个 SQL 查询 创建 一 个 包含 3 列 的 表 。 
© 执行 查询 。 


























In [52]: query = 'CREATE TABLE numbs (Date date, Nol real, No2 real)' @ 


© 


No2 real)')] 


1 Python 可 用 数据 库 连 接 器 的 概述 详 见 Python 官方 文档 。 事实 证 明 , 使 用 SQLALchemy 等 对 象 关系 














映射 器 往往 比 直接 访问 关系 数据 库 更 实用 。 这 些 映射 器 引入 一 个 抽象 层 ， 
































1. Python JX 














可 以 实现 更 








格 的 面向 对 象 代 码 ， 而 且 ， 它 们 还 可 以 帮助 你 更 轻松 地 更 换 后 端的 关系 数据 库 。 一 一 原 注 
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@ 提交 更 改 。 
© 为 con.execute ( ) 方法 定义 一 个 短 别 名 。 
@ 读 取 关于 数据 库 的 元 信息 ， 将 刚刚 创建 的 表 显 示 为 单个 对 象 。 


现在 ， 我 们 有 了 一 个 包含 单个 表 的 数据 库 ， 可 以 在 表 中 填 和 人 数据 了 。 每 行 数 据 包括 一 
个 日 期 时 间 (datetime ) 对 象 和 两 个 浮 点 (float) 对 象 ; 


In [57]: import datetime 











In [58]: now = datetime.datetime.now() 
q('INSERT INTO numbs VALUES(?, ?, ?)', (now, 0.12, 7.3)) o 
Out [58]: <sqlite3.Cursor at 0x102655f80> 





In [59]: np.random.seed(100) 


In [60]: data = np.random.standard_normal((10000, 2)).round(4) @ 








In [61]: %%time 
for row in data: © 
now = datetime.datetime.now() 
q('INSERT INTO numbs VALUES(?, ?, ?)', (now, row[0], row[1])) 


con.commit () 








CPU times: user 115 ms, sys: 6.69 ms, total: 121 ms 
Wall time: 124 ms 











In [62]: q('SELECT * FROM numbs').fetchmany(4) @ 
Out [62]: [('2018-10-19 12:11:15.564019', 0.12, 7.3), 



































"2018-10-19 12:1 5.992956", -1.7498, 0.3427), 
"2018-10-19 12:1 5.593033', 1.153, -0.2524), 
'2018-10-19 12:1 5.593051", 0.9813, 0.5142) ] 

In [63]: q('SELECT * FROM numbs WHERE nol > 0.5').fetchmany(4) © 

Out [63]: [('2018-10-19 12:11:15.593033', 1.153, -0.2524), 
*2018=10-19 12:3:112:15..593051", 0.9813, 0.5142), 
"2018-10-19 12:11:15.593104', 0.6727, -0.1044), 
"2018-10-19 12 15.593134', 1.619, 1.5416) ] 








In [64]: pointer = q('SELECT * FROM numbs') © 











In [65]: for i in range(3): 
print (pointer.fetchone()) @ 
("2018-10-19 D2311315.564019",. 0.12; T3) 
C7 2018-10-19 12:11:15.592956', -1.7498, 0.3427) 
("2018-10-19 12:11:15.593033', 1.153, -0.2524) 
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In [66]: rows = pointer.fetchall() ® 
rows [:3] 
Out [66]: [('2018-10-19 12:11:15.593051', 0.9813, 0.5142), 
(*201L8-10=19; 123113 25:...593063",. 10.2212; —1.07) 5 
("2018-10-19 I2:11%15:.593073", -0.1895;, 0.255).] 


© 写 和 一行 (记录 ) 到 numbs 表 。 

@ 以 ndarray 对 象形 式 创建 一 个 较 大 的 虚拟 数据 集 。 

© 循环 读 取 ndarray 对 象 各 行 。 

@ 从 表 中 读 取 一 些 行 

Ə 同上 , 但 是 以 Nol 列 上 的 值 为 条 件 。 

@ 定义 一 个 指针 对 象 。 

@ 表现 类 似 于 生成 器 对 象 。 

© 读 取 剩 下 的 所 有 行 。 

最 后 ， 你 可 能 想 要 在 不 需要 数据 库 中 的 表 对 象 时 将 其 删除 


In [67]: q('DROP TABLE IF EXISTS numbs') o 
Out [67]: <sqlite3.Cursor at 0x1187a7420> 











In [68]: q('SELECT * FROM sqlite_master').fetchall() @ 








Out [68]: [] 
In [69]: con.close() ® 
In [70]: !rm -f $path* @ 





@ 从 数据 库 中 删除 表 。 

@ 操作 之 后 没有 任何 表 对 象 。 

O 关闭 数据 库 连 接 。 

O 从 磁盘 上 删除 数据 库 文件 。 

SQL 数据 库 是 相当 广泛 的 主题 ， 本 章 无 法 涵盖 其 广度 和 复杂 度 ， 只 能 提供 一 些 基 本 信息 : 
e Python 和 几乎 所 有 数据 库 技术 都 能 很 好 地 集成 ; 

。 ”基本 SQL 语法 主要 由 使 用 的 数据 库 决定 ， 剩 下 的 都 是 真正 的 Python 风格 。 

本 章 后 面 还 有 几 个 基于 SQLite3 的 例子 。 
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9.1.4 读 写 NumPy 数组 
NumPy 本 身 有 以 便利 、 高 性 能 的 方式 写 人 和 读 取 ndarray 对 象 的 函数 。 这 在 某 些 情 
况 下 节省 了 工作 量 , 例如 必须 将 NumPy dtype 转换 为 特定 数据 库 类 型 (例如 SQLite3 ) 
时 。 为 了 说 明 NumPy 有 时 候 是 基于 SQL 方法 的 高 效 替 代 品 ， 我 们 用 NumPy 重复 前 面 
的 例子 。 下 列 代 码 中 用 NumPy 的 np.arrange() KAUR pandas, “EMEA 
datetime 对 象 的 ndarray WE: 


In [71]: dtimes = np.arange('2019-01-01 10:00:00', '2025-12-31 22:00:00', 
dtype='datetime64[m]') © 








In [72]: len(dtimes) 
Out [72]: 3681360 


In [73]: dty = np.dtype([('Date', 'datetime64[m]'), 
('Nol', 'f'), ('No2', 'f£')]) © 


In [74]: data = np.zeros(len(dtimes), dtype=dty) ® 


In [75]: data['Date'] = dtimes ©@ 
In [76]: a = np.random.standard_normal((len(dtimes), 2)).round(4) © 
In [77]: data['Nol'] = a[:, 0] © 

data['No2'] = a[:, 1] © 





In [78]: data.nbytes @ 
Out [78]: 58901760 


o 创建 一 个 ndarray 对 象 ， 将 其 dtype KW datetime, 
@ 为 结构 数组 定义 特殊 的 dtype 对 象 。 

© 用 特殊 dtype 来 实例 化 ndarray 对 象 。 

O 填充 Date 列 。 

@ 模拟 数据 集 。 
© JAA Nol 和 No2 Fij, 

@ 结构 数组 的 大 小 ， 以 字 节 表示 。 


ndarray 对 象 的 保存 经 过 了 高 度 优化 ， 因 此 相当 快速 。 在 磁盘 ( 这 里 使 用 SSD ) 中 保 
TFE 60MB 的 数据 只 花 了 不 到 0.1s。 包 含 480MB 数据 的 较 大 ndarray 对 象 保存 在 磁盘 
上 也 只 花 了 大 约 0.5s: | 














Tay 























1 注意 , 这 一 时 间 即 使 在 同一 台 机 器 上 多 次 重复 也 可 能 有 显著 的 不 同 ,因为 除了 其 他 因素 之 外 , 它们 
还 取决 于 此 时 机 器 的 CPU 和 VO 系统 在 执行 什么 任务 。 一 一 原 注 
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In [79]: %time np.save(path + 'array', data) © 
CPU times: user 37.4 ms, sys: 58.9 ms, total: 96.4 ms 
Wall time: 77.9 ms 
In [80]: 11 Spath* @ 
-rw-r--r-- 1 yves staff 58901888 Oct 19 12:11 
/Users/yves/Temp/data/array.npy 
In [81]: %time np.load(path + 'array.npy') © 
CPU times: user 1.67 ms, sys: 44.8 ms, total: 46.5 ms 
Wall time: 44.6 ms 
Out [81]: array([('2019-01-01T10:00', 1.5131, 0.6973), 
('2019-01-01T10:01', -1.722 , -0.4815), 
('2019-01-01T10:02', 0.8251, 0.3019), ..., 
('2025-12-31T21:57', 1.372 , 0.6446), 
('2025-12-31T21:58', -1.2542, 0.1612), 
('2025-12-31T21:59', -1.1997, -1.097 )], 
dtype=[('Date', '<M8[m]"'), ('Nol', '<f4"'), ('No2', '<f£4"')]) 
In [82]: %time data = np.random.standard normal ( (10000, 6000)).round(4) @ 
CPU times: user 2.69 s, sys: 391 ms, total: 3.08 s 
Wall time: 2.78 s 
In [83]: data.nbytes @ 
Out [83]: 480000000 
In [84]: %time np.save(path + 'array', data) @ 
CPU times: user 42.9 ms, sys: 300 ms, total: 343 ms 
Wall time: 481 ms 
In [85]: 11 Spath*® 
-rw-r--r-- 1 yves staff 480000128 Oct 19 12:11 
/Users/yves/Temp/data/array.npy 
In [86]: %time np.load(path + 'array.npy')® 
CPU times: user 2.32 ms, sys: 363 ms, total: 365 ms 
Wall time: 363 ms 
Out [86]: array([[ 0.3066, 0.5951, 0.5826, ..., 1.6773, 0.4294, -0.2216], 
0.8769, 0.7292, -0.9557, ..., 0.5084, 0.9635, -0.4443], 
-1.2202, -2.5509, -0.0575, ..., —1.6128, 0.4662, -1.3645], 
okey 
-0.55987 0.2393; '‘=2 03716). sep 1.16697. 0.2462; 1.035: Jy 
0.273 , 0.8216, —-0.0749, ..., —0.0552, -0.8396, 0.3077], 
-0.6305, 0.8331, 1.3702, ..., 0.3493, 0.1981, 0.2037]]) 
In [87]: !rm -f $path* 
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O 在 磁盘 上 保存 结构 化 ndarray 对 象 。 

@ 磁盘 上 的 尺寸 几乎 与 内 存 中 的 相同 ( 由 于 二 进 制 存储 )。 
© 从 磁盘 加 载 结构 化 ndarray WR. 

@ 更 大 的 常规 ndarray 对 象 。 


这 些 例子 说 明 ， 写 入 磁盘 主要 受到 硬件 的 限制 ， 因 为 观察 到 的 速度 大 约 相当 于 本 书 编 
著 时 较 好 的 SSD 广告 中 声称 的 写 人 速度 (512MB/s )。 


在 任何 情况 下 我 们 都 可 以 预期 ， 这 种 形式 的 数据 存储 和 检索 远 快 于 SQL 数据 库 或 者 使 
H pickle 模块 的 序列 化 。 原 因 有 二 : 首先 ， 数 据 主要 是 数值 ;其 次 ，NumPy 使 用 二 
进 制 存储 ， 几 乎 将 额外 开销 下 降 到 0。 当 然 ， 这 种 方法 没有 SQL 数据 库 的 功能 性 ， 但 
是 后 面 内 容 中 介绍 的 PyTables 对 此 会 有 所 帮助 。 






































9.2 pandas BY I/O 
pandas 库 的 主要 优势 之 一 是 可 以 原生 读 取 和 写 信 不同 的 数据 格式 ， 包 括 ， 


。 CSV (逗号 分 隔 值 ); 
。 SQL (结构 化 查询 语言 ); 
e XLS/XSLX ( Microsoft Excel 文件 ); 





e JSON (JavaScript 对 象 标记 法 ); 
e HTML ( 超 文本 标记 语言 )。 


表 9-1 列 出 了 所 有 的 支持 格式 和 对 应 的 pandas 及 DataFrame 类 导 和 人 和 导出 的 函数 /方法 。 
例如 ,导入 函数 (如 pd.reagd_csv() ) 使 用 的 参数 在 pandas .read_csv 文档 中 描述 。 











表 9-1 ”导入 一 导出 函数 及 方法 









































格式 输入 输出 备注 
CSV pd. read_csv() .to_csv() 文本 文件 
XLS/XLSX pd.read_excel () .to_excel () 电子 表格 
HDF pd. read_hdf () .to_hdf () HDF5 数据 库 
SQL pd.read_ sql() .to_sql () SQL # 
JSON pd.read_json() .to_json () JavaScript 对 象 标 记 
MSGPACK | pd.read_msgpack () .to_msgpack () | 可 移植 二 进 制 格式 
HTML pd.read_html () .to_html () HTML 代码 
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BR 


























格式 输入 输出 备注 

GBQ pd.read_gbq () .to_gbq() Google Big Query 格式 

DTA pd.read_stata() -to_stata() er ee 
任意 pd.read_clipboard() | .to_clipboard() | 例如 ， 从 HTML 页 面 

任意 pd.read_pickle() .to_pickle() (结构 化 ) Python 对 象 

















我 们 的 测试 用 例 仍然 是 较 大 的 一 组 浮 点 数 : 


data = np.random.standard_normal((1000000, 5)).round(4) 


In [88]: 


In [89]: 
Out [89]: 


data[:3] 

array([[ 0.4918, 
[ 0.4516, 
[ 0162.9, 


1.4445, 
-0.8473, -O. 





1.3707, 0.137 , 0.3981, -1.0059], 
0.0555, -0.0397, 0.44 ], 


8223, -0.4621, -0.5137]]) 


为 此 ， 我 们 还 将 再 次 访问 SQLite3 ， 比 较 使 用 pandas 的 替代 方法 的 性 能 。 


使 用 SQL 数据 库 
现在 ， 你 应 该 对 下 面 关于 SQLite3 的 代码 应 该 很 熟悉 了 : 


9.2.1 


In 
In 


In 


In 


In 





Out 


@ 创建 一 个 有 5 列 的 表 以 月 
这 次 可 以 应 用 .executemany () ,因为 数据 在 单个 ndarray 对 象 中 。 读 取 和 使 月 








90 


91 


92 


93 


94 
94 








No3 real, 


: q = con.execute 


filename = path + 'numbers' 
: con = sq3.Connection(filename + '.db') 
: query = 'CREATE TABLE numbers (Nol real, No2 real,\ 


No4 real, No5 real)' © 


qm = con.executemany 


: q(query) 
: <sqlite3.Cursor at 0x1187a76c0> 


HFS ( 浮 点 对 象 )。 





的 方法 和 以 前 的 相同 。 查 询 结果 也 很 容易 可 视 化 〈 见 图 9-1 ): 


In [95]: 


SStime 


qm('INSERT INTO numbers VALUES (?, ?, ?, ?, ?)', data) 


con.commit () 


CPU times: 
Wall time: 


user 7 
Tai, 局 


-3 S, sys: 


195 ms, total: 7.49 s 








0 


数据 
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© © © © 


In [96]: 


In [98]: 


In [99]: 


11 Spath* 
—rw-r--r-— 1 yves staff 52633600 Oct 19 12:11 
/Users/yves/Temp/data/numbers.db 


Sstime 

temp = q('SELECT * FROM numbers').fetchall() @ 

print (temp[:3]) 

[ (0.4918, 1.3707, 0.137, 0.3981, -1.0059), (0.4516, 1.4445, 0.0555, 
-0.0397, 0.44), (0.1629, -0.8473, -0.8223, -0.4621, -0.5137)] 

CPU times: user 1.7 s, sys: 124 ms, total: 1.82 s 

Wall time: 1.9 s 





Sstime 

query = "SELECT * FROM numbers WHERE Nol > 0 AND No2 < 0' 
res = np.array(q(query) .fetchall()).round(3) © 

CPU times: user 639 ms, sys: 64.7 ms, total: 704 ms 

Wall time: 702 ms 














res = res[::100] @ 
plt.figure(figsize=(10, 6)) 
plt.plot(res[:, 0], res[:, 1], 'ro') @ 








只 用 一 步 即 可 将 整个 数据 集 插入 表 。 
只 用 一 步 即 可 从 表 中 读 取 所 有 行 。 
有 选择 地 读 取 一 些 行 ， 将 其 转换 成 ndarray WA. 





绘制 查询 结果 中 某 个 子 集 的 图 表 。 





ds 








0.0 


-0.5 


-2.0 


-3.0 





0 1 2 3 4 





图 9-1 查询 结果 ( 有 选择 ) 的 散 点 图 
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9.2.2 从 SQL 2] pandas 

用 pandas 读 取 整 个 表 或 者 查询 结果 通常 更 为 高 效 。 在 可 以 将 整个 表 读 入 内 存 时 ， 分析 
查询 的 执行 通常 比 使 用 基于 磁盘 的 SQL 方法 快 得 多 。 

用 pandas 读 取 整个 表 花 费 的 总 时 间 和 读 人 NumPy 的 ndarray 对 象 的 时 间 大 致 相同 。 
瓶颈 同样 在 SQL 数据 库 : 


In [100]: %time data = pd.read_sql('SELECT * FROM numbers', con) © 
CPU times: user 2.17 s, sys: 180 ms, total: 2.35 s 
Wall time: 2.32 s 
































In [101]: data.head() 

Out [101]: Nol No2 No3 No4 No5 
-4918 1.3707 0.1370 0.3981 -1.0059 
-4516 1.4445 0.0555 -0.0397 0.4400 
.1629 -0.8473 -0.8223 -0.4621 -0.5137 
.3064 0.9125 0.5142 -0.7868 -0.3398 
-0.1148 -1.5215 -0.7045 -1.0042 -0.0600 


o 将 表 的 所 有 行 读 和 名 为 data 的 DataFrame 对 象 中 。 
数据 现在 在 内 存 中 , 可 以 对 其 进行 更 快 的 分 析 了 , 速度 往往 有 一 个 或 多 个 数量 级 的 提升 。 
pandas 还 可 以 进行 更 为 复杂 的 查询 ， 但 在 复杂 的 关系 数据 结构 下 ， 这 并 不 意味 着 可 以 取 
代 SQL 数据 库 。 多 重 条 件 查 询 结 果 如 图 9-2 所 示 : 

In [102]: %time data[(data['Nol'] > 0) & (data['No2'] < 0)].head() © 


CPU times: user 47.1 ms, sys: 12.3 ms, total: 59.4 ms 
Wall time: 33.4 ms 


A wù NEBO 
roo oO 














Out [102]: Nol No2 No3 No4 No5 
2 0.1629 -0.8473 -0.8223 -0.4621 -0.5137 

5 0.1893 -0.0207 -0.2104 0.9419 0.2551 

8 1.4784 -0.3333 -0.7050 0.3586 -0.3937 

10 0.8092 -0.9899 1.0364 -1.0453 0.0579 

11 0.9065 -0.7757 -0.9267 0.7797 0.0863 


In [103]: %%time 
q = '(Nol < -0.5 | Nol > 0.5) & (No2 < -1 | No2 > 1)' @ 
res = data[['Nol', 'No2']].query(q) @ 
CPU times: user 95.4 ms, sys: 22.4 ms, total: 118 ms 
Wall time: 56.4 ms 


In [104]: plt.figure(figsize=(10, 6)) 
plt.plot(res['Nol'], res['No2'], 'ro'); 
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o 2 个 逻辑 条 件 组 


@ 4 个 逻辑 条 件 组 合 。 


up 

















N 














图 9-2 查询 结果 ( 有 选择 ) 散 点 图 


正如 你 所 预期 的 ， 只 要 pandas 能 够 复制 对 应 的 SQL 语句 ， 那 么 使 用 pandas 的 内 存 分 
析 能 力 可 以 有 效 提 升 速度 。 这 并 不 是 使 用 pandas 的 唯一 优势 ， 因 为 pandas 与 其 他 程序 
库 (包括 下 一 市 的 主题 PyTables ) 紧密 集成 。 在 此 ， 知 道 这 种 组 合 能 够 大 大 加 速 VO 操 
作 就 足够 了 。 下 面 的 例子 就 能 说 明 这 一 点 : 


In [105]: h5s = pd.HDFStore (filename + '.h5s', 'w') 0 


In [106]: %time h5s['data'] = data @ 
CPU times: user 46.7 ms, sys: 47.1 ms, total: 93.8 ms 
Wall time: 99.7 ms 


In [107]: h5s © 
Out [107]: <class 'pandas.io.pytables.HDFStore'> 
File path: /Users/yves/Temp/data/numbers.h5s 


In [108]: h5s.close() @ 


O 打开 一 个 HDF5 数据 库 文件 用 于 写 入 ; 在 pandas 中 ， 创 建 一 个 HDFStore 对 象 。 
@ 完整 的 DataFrame 对 象 通过 二 进 制 存储 被 保存 在 数据 库 文件 中 。 


© HDFStore 对 象 信息 。 
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@ 关闭 数据 库 文 件 。 


与 SQLite3 的 相同 操作 相 比 ， 写 入 包含 原始 SQL 表 所 有 数据 的 整个 DataFrame 要 快 


得 多 ， 读 取 速 度 也 更 快 : 
In [109]: %%time 
h5s = pd.HDFStore (filename + '.h5s', 'r') © 
data_ = h5s['data'] @ 


h5s.close() © 


CPU times: user 11 ms, sys: 18.3 ms, total: 29.3 ms 


Wall time: 29.4 ms 





In [110]: data_ is data @ 
Out[110]: False 





In [111]: (data_ == data).all() © 
Out[111]: Nol True 

No2 True 

No3 True 

No4 True 

No5 True 

dtype: bool 
In [112]: np.allclose(data_, data) © 





Out [112]: True 


In [113]: 11 $path* © 
-rw-r--r-- 1 yves staff 52633600 Oct 19 12:11 
/Users/yves/Temp/data/numbers.db 
-rw-r--r-- 1 yves staff 48007240 Oct 19 12:11 
/Users/yves/Temp/data/numbers.h5s 


O 打开 HDFS 数据 库 以 读 取 。 

@ 读 取 DataFrame， 将 其 保存 在 内 存 中 ,形式 为 data_。 
© 关闭 数据 库 文件 。 

O 两 个 DataFrame 对 象 不 同 。 

@ 包含 相同 数据 。 
@ 二 进 制 存储 的 尺寸 通常 比 其 他 格式 〈 例 如 SQL ) 小 。 


9.2.3 使 用 CSV 文件 











CSV 格式 是 最 广 为 使 用 的 数据 交换 格式 之 一 。 虽然 它 没有 真正 标准 化 ， 但 是 可 以 




















HH 


























任 


何平 台 和 大 部 分 数据 、 金 融 分 析 应 用 程序 处 理 。 前 面 ， 我 们 已 经 了 解 了 用 标准 Python 
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功能 写 人 和 读 取 CSV 文件 中 数据 ( 参见 9.1.2 节 ) 的 方法 。pandas 使 这 整个 过 程 变 得 
更 加 方便 ,代码 更 加 人 简洁， 执行 通常 也 更 快 (参见 图 9-3 ): 


In [114]: %time data.to_csv (filename + '.csv') © 
CPU times: user 6.44 s, sys: 139 ms, total: 6.58 s 
Wall time: 6.71 s 


In [115]: 11 Spath 
total 283672 
-rw-r--r-- 1 yves staff 43834157 Oct 19 12:11 numbers.csv 
-rw-r--r-- 1 yves staff 52633600 Oct 19 12:11 numbers.db 
-rw-r--r-- 1 yves staff 48007240 Oct 19 12:11 numbers.h5s 


In [116]: %time df = pd.read_csv(filename + '.csv') @ 
CPU times: user 1.12 s, sys: 111 ms, total: 1.23 s 
Wall time: 1.23 s 


In [117]: d£[['Nol', 'No2', 'No3', 'No4']].hist (bins=20, figsize=(10, 6)); 
O .to_csv() 方 法 以 CSV 格式 将 DataFrame 数据 写 人 磁盘 。 
@ pd.read_csv() 方 法 将 数据 读 回 内 存 ， 成 为 新 的 DataFrame 对 象 。 








Nol No2 

150000 150000 
100000 100000 
50000 50000 

0 0 

4 4 

200000 
150000 150000 
100000 100000 
50000 50000 

0 0 

-4 -2 0 2 4 -4 -2 0 2 4 











9-3 ”选择 列 的 直方 图 


9.2.4 使 用 Excel 文件 


使 用 Excel 数据 表 是 后 续 章 节 的 主题 ， 现 在 我 们 只 是 简短 地 阐述 pandas 如 何以 Excel 





240 第 9 章 输入 /输出 操作 


格式 写 人 数据 ， 以 及 如 何 从 Excel 数据 表 中 读 取 数据 。 在 该 例 中 , 我 们 将 数据 集 限 制 在 
10 万 行 ( 见 图 9-4 ): 





600 “= Nol 
一 No2 

500 —— No3 
— No4 
=- NOS: 

400 

300 

200 





0 20000 40000 60000 80000 100000 


9-4 所 有 列 的 线 图 











In [118]: %time data[:100000] .to_excel (filename + '.xlsx') © 
CPU times: user 25.9 s, sys: 520 ms, total: 26.4 s 
Wall time: 27.3 s 


In [119]: %time df = pd.read_excel (filename + '.xlsx', 'Sheet1') @ 
CPU times: user 5.78 s, sys: 70.1 ms, total: 5.85 s 
Wall time: 5.91 s 


In [120]: df.cumsum() .plot (figsize=(10, 6)); 
In [121]: 11 $path* 

-rw-r--r-- 1 yves staff 43834157 Oct 19 12:11 
/Users/yves/Temp/data/numbers.csv 
-rw-r--r-- 1 yves staff 52633600 Oct 19 12:11 
/Users/yves/Temp/data/numbers.db 
-rw-r--r-- 1 yves staff 48007240 Oct 19 12:11 
/Users/yves/Temp/data/numbers.h5s 
-rw-r--r-- 1 yves staff 4032725 Oct 19 12:12 


/Users/yves/Temp/data/numbers.xlsx 














In [122]: rm -f Spath* 


O to_excel () 方 法 以 XLSX 格式 将 DataFrame 数据 写 人 磁盘 。 
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@ pd.read_excel () 方 法 将 数据 读 入 内存， 成 为 一 个 新 的 DataFrame 对 象 ， 你 也 
可 以 指定 要 读 取 的 工作 表 。 
用 这 个 小 的 数据 子 集 生成 Excel 数据 表 需 要 花费 一 段 时 间 。 这 展现 了 数据 表 结 构 带 来 的 
开销 。 

对 生成 的 文件 进行 检查 后 发 现 ,DataFrame 与 HDFStore 相 结合 是 最 为 紧凑 的 备 选 方法 
之 一 (使 用 本 章 后 面 介绍 的 压缩 可 以 进一步 加 强 这 一 优势 )。 同 样 的 数据 量 如 果 用 CSV 
文件 〈 即 文本 文件 ) 存储 ， 文 件 尺 寸 会 更 大 。 这 是 使 用 CSYV 文件 的 性 能 较 低 的 原因 之 

， 男 一 个 原因 是 它们 “只 是 ”一 般 的 文本 文件 。 

































































9.3 PyTables AY I/O 


PyTables 是 Python 与 HDF5 数据 库 /文件 标准 的 结合 。 它 专门 为 优化 IO 操作 的 性 能 、 

最 大 限度 地 利用 可 用 硬件 而 设计 。 该 库 的 导入 名 称 为 tables。 在 内 存 分 析 方 面 ， 

PyTables 与 pandas 类 似 ， 并 不 是 用 于 代 蔡 SQL 数据 库 的 ， 而 是 引入 某 些 功能 来 进 一 
步 弥补 不 足 。 例 如 ，PyTables 数据 库 可 以 有 许多 表 ， 且 它 支持 压缩 和 索引 ， 以 及 表 
的 重要 查询 。 此 外 ， 它 可 以 高 效 地 存储 NumPy 数组 ， 并 具有 自己 独特 的 类 数组 数 
据 结构 。 
首先 导入 程序 库 : 


In [123]: import tables as tb © 
import datetime as dt 


O 包 名 为 PyTables， 导 入 名 称 为 tables。 


9.3.1 使 用 表 


PyTables 提供 了 基于 文件 的 数据 库 格式 ,与 SQLite 类 似 。 下 面 的 代码 可 以 打开 一 个 数 
据 库 文件 ， 然 后 创建 一 个 表 : 


In [124]: filename = path + 'pytab.h5' 












































In [125]: h5 = tb.open_file (filename, 'w') 0 


In [126]: row des = { 
"Date': tb.StringCol(26, pos=1), @ 
"Nol': tb.IntCol (pos=2), © 
"No2': tb.IntCol (pos=3), © 











1 HARG ZAR AAS R o EKUE, SPACE CES RIT, ETP OC AE EEE 
方便 一 些 ， 也 足以 应 付 大 部 分 场合 。 一 一 原 注 
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'No3': tb.Float64Col(pos=4), @ 
'No4': tb.Float64Col(pos=5) © 


In [127]: rows = 2000000 
In [128]: filters = tb.Filters(complevel=0) © 


In [129]: tab = h5.create_table('/', '‘ints_floats', © 
row_des, @ 
title='Integers and Floats', ® 
expectedrows=rows, © 
filters=filters) © 


In [130]: type (tab) 
Out[130]: tables.table.Table 


In [131]: tab 

Out [131]: /ints_floats (Table(0,)) 'Integers and Floats' 
description := { 
"Date": StringCol (itemsize=26, shape=(), dflt=b'', pos=0), 
"Nol": Int32Col(shape=(), dflt=0, pos=1), 
"No2": Int32Col(shape=(), dflt=0, pos=2), 
"No3": Float64Col (shape=(), dflt=0.0, pos=3), 
"No4": Float64Col (shape=(), dfl1t=0.0, pos=4) } 
byteorder := 'little' 
chunkshape := (2621,) 


© 以 HDF5 二 进 制 存储 格式 打开 数据 库 文件 。 
@ Date 列 用 于 日 期 -时 间 信 息 (字符 串 对 象形 式 )。 
O 保存 整数 对 象 的 两 列 。 

@ 保存 浮 点 对 象 的 两 列 。 

O 通过 Filters 对 象 可 以 指定 压缩 级 别 。 
© 

@ 

© 

© 





() 
() 





表 的 节点 ( 路径) 和 技术 名 称 。 
行 数据 结构 摘 述 。 
表 名 (标题 )。 
预期 的 行 数 ; 可 以 优化 。 
© 用 于 该 表 的 Filters HR. 


为 了 在 表 中 填 人 数值 数据 , 我 们 生成 了 两 个 包含 随机 数 的 ndarray HR: 一 个 包含 随 
机 整数 ， 男 一 个 包含 随机 浮 点 数 。 填 充 表 的 工作 由 一 个 简单 的 Python 循环 完成 : 
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In [132]: pointer = tab.row © 
In 133 ran_int = np.random.randint(0, 10000, size=(rows, 2)) @ 
In 134 ran_flo = np.random.standard_normal((rows, 2)).round(4) © 
In 135 Sstime 
for i in range(rows): 
pointer['Date'] = dt.datetime.now() © 
pointer['Nol'] = ran_int[i, 0] @ 
pointer['No2'] = ran_int[i, 1] @ 
pointer['No3'] = ran_flo[i, 0] © 
pointer['No4'] = ran_flo[i, 1] © 
pointer.append() © 
tab.flush() © 
CPU times: user 8.16 s, sys: 78.7 ms, total: 8.24 s 
Wall time: 8.25 s 
In [136]: tab @ 
Out[136]: /ints_floats (Table(2000000,)) 'Integers and Floats' 
description := { 
"Date": StringCol(itemsize=26, shape=(), dflt=b'', pos=0), 
"Nol": Int32Col(shape=(), dflt=0, pos=1), 
"No2": Int32Col(shape=(), dflt=0, pos=2), 
"No3": Float64Col(shape=(), dflt=0.0, pos=3), 
"No4": Float64Col(shape=(), dflt=0.0, pos=4) } 
byteorder := 'little' 
chunkshape := (2621,) 
In [137]: 11 $path* 
-rw-r--r-- 1 yves staff 100156248 Oct 19 12:12 
/Users/yves/Temp/data/pytab.h5 
@ 创建 一 个 指针 对 象 。 
@ 创建 包含 随机 整数 的 ndarray 对 象 。 
O 创建 包含 随机 浮 点 数 的 ndarray WR. 
O ZITHA datetime 对 象 、 两 个 整数 和 两 个 浮 点 数 对 象 。 
@ 附加 新 行 。 
O 所 有 写 和 信行 都 必须 “ 冲 走 ”( flushed )， 也 就 是 提交 为 永久 性 更 改 。 
O 更 改 反 映 在 Table 对 象 的 描述 中 。 
本 例 中 的 Python 循环 相当 慢 。 通过 使 用 NumPy 结构 数组 , 我 们 可 以 以 性 能 更 好 、 更 具 Python 
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风格 的 方式 实现 相同 的 结果 。 将 完整 数据 集 保 存在 结构 数组 中 后 ， 创 建 表 就 只 需要 一 行 代 
码 。 注 意 ， 不 再 需要 行 描述 。PyTables 使 用 结构 数组 的 dtype 对 和 象 来 推导 数据 类 型 : 


In [138]: dty = np.dtype([('Date', 'S26'), ('Nol', '<i4'), ('No2', '<i4'), 
('No3', '<f£8'), ('No4', '<f8')]) © 








In [139]: sarray = np.zeros(len(ran_int), dtype=dty) @ 


In [140]: sarray[:4] © 
Out [140]: array (TB; 0, 0, 0., 0.), (b'', 0, 0, O., O.), (b'', O, O, O., 0.), 
(rra OF 07 Op ON.) Ts 
dtype=[('Date', 'S26'), ('Nol', '<i4'), ('No2', '<i4"'), ('No3', '<f8'), 
("'No4', '<f8"')]) 


In [141]: %%Stime 


sarray['Date'] = dt.datetime.now() @ 
sarray['Nol'] = ran_int[:, 0] @ 
sarray['No2'] = ran_int[:, 1] @ 
sarray['No3'] = ran_flo[:, 0] @ 
sarray['No4'] = ran_flo[:, 1] ® 


CPU times: user 161 ms, sys: 42.7 ms, total: 204 ms 
Wall time: 207 ms 


In [142]: %%time 
h5.create_table('/', ‘ints_floats_from_array', sarray, 
title='Integers and Floats', 
expectedrows=rows, filters=filters) © 
CPU times: user 42.9 ms, sys: 51.4 ms, total: 94.3 ms 
Wall time: 96.6 ms 


Out[142]: /ints_floats_from_array (Table(2000000,)) 'Integers and Floats' 
description := { 
"Date": StringCol (itemsize=26, shape=(), dflt=b'', pos=0), 
"Nol": Int32Col(shape=(), dflt=0, pos=1), 
"No2": Int32Col(shape=(), dflt=0, pos=2), 
"No3": Float64Col (shape=() dflt=0.0, pos=3), 
"No4": Float64Col (shape=(), df1lt=0.0, pos=4) } 
byteorder := 'little' 
chunkshape := (2621,) 


7 
r 


@ 定义 特殊 dtype WA. 

@ 创建 包含 0 ( 和 空 串 ) 的 结构 数组 。 
© XH ndarray 对 象 的 几 个 记录 。 
O 一 次 性 填充 ndarray 对 象 各 列 。 
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O 创建 Table 对 象 并 填 人 数据 。 
这 种 方法 的 速度 会 提升 一 个 数量 级 ， 从 而 以 更 简洁 的 代码 实现 相同 结 


In [143]: type (h5) 
Out [143]: tables.file.File 





In [144]: h5 © 

Out [144]: File (filename=/Users/yves/Temp/data/pytab.h5, title='', mode='w', 
root_uep='/', filters=Filters(complevel=0, shuffle=False, 
bitshuffle=False, fletcher32=False, least_significant_digit=None) ) 
/ (RootGroup) '' 
/ints_floats (Table(2000000,)) ‘Integers and Floats' 

description := { 

"Date": StringCol(itemsize=26, shape=(), dflt=b'', pos=0), 

"Nol": Int32Col(shape=(), dflt=0, pos=1), 

"No2": Int32Col(shape=(), dflt=0, pos=2), 

"No3": Float64Col(shape=(), dflt=0.0, pos=3), 

"No4": Float64Col(shape=(), dflt=0.0, pos=4) } 








byteorder := 'little' 
chunkshape := (2621,) 

/ints_floats_from_array (Table(2000000,)) 'Integers and Floats' 
description := { 


"Date": StringCol(itemsize=26, shape=(), dflt=b'', pos=0), 
"Nol": Int32Col(shape=(), dflt=0, pos=1), 

"No2": Int32Col(shape=(), dflt=0, pos=2), 

"No3": Float64Col(shape=(), dflt=0.0, pos=3), 

"No4": Float64Col(shape=(), dflt=0.0, pos=4) } 


byteorder := 'little' 
chunkshape := (2621,) 
In [145]: h5.remove_node('/', ‘ints_floats_from_array') © 


@ GEMA Table WHA File 对 象 描述 。 
o 删除 包含 元 余数 据 的 第 二 个 Table 对 象 。 
Table 对 象 在 大 部 分 情况 下 与 NumPy 结构 化 数组 的 表现 很 相似 ( 见 图 9-5 ): 


In [146]: tab[:3] @ 
Out [146]: array([ (b'2018-10-19 12:12:28.227771', 8576, 5991, -0.0528, 0.2468), 
(b'2018-10-19 127512228 .227858", 2990, 9310, -0.0261, 0.3932), 

(b'2018-10-19 12:12:28.227868', 4400, 4823, 0.9133, 0.2579) ] 

dtype=[("'Date', 'S26"), ('Nol', '<i4'), ('No2', '<i4'), ("No3', '<f8"'), 

('No4', '<f8')]) 


7 





In [147]: tab[:4]['No4'] @ 
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Out [147]: 


In [148]: 


Out [148]: 


In [149]: 


Out [149]: 


In. [1501 


array([ 0.2468, 0.3932, 0.2579, -0.5582]) 


Stime np.sum(tab[:]['No3']) © 
CPU times: user 76.7 ms, sys: 74.8 ms, total: 151 ms 
Wall time: 152 ms 


88.8542999999997 


Stime np.sum(np.sqrt(tab[:]['Nol'])) © 
CPU times: user 91 ms, sys: 57.9 ms, total: 149 ms 
Wall time: 164 ms 


133349920.3689251 


Sstime 

plt.figure(figsize=(10, 6)) 

plt.hist (tab[:]['No3'], bins=30); ® 

CPU times: user 328 ms, sys: 72.1 ms, total: 400 ms 
Wall time: 456 ms 


通过 索引 选择 行 。 

通过 索引 选择 列 值 。 

应 用 NumPy 通用 函数 。 

根据 Table 对 象 的 一 列 绘制 图 表 。 
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9-5” 列 数据 的 直方 图 
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图 9-6 所 示 ; 可 与 基于 pandas 查询 的 图 9-2 进行 对 比 ): 


In [151]: query = '((No3 < -0.5) | (No3 > 0.5)) & ((No4 < -1) | (No4 > 1))'© 


PyTables 还 提供 了 通过 典型 类 SQL 语句 查询 数据 的 灵活 工具 ， 如 下 面 的 例子 ( 结果 如 





In [152]: iterator = tab.where (query) @ 


In [153]: %time res = [(row['No3'], row['No4']) for row in iterator] ® 
CPU times: user 269 ms, sys: 64.4 ms, total: 333 ms 
Wall time: 294 ms 


In [154]: res = np.array (res) @ 
res[:3] 
Out[154]: array([[0.7694, 1.4866], 
[0.9201, 1.3346], 
[1.4701, 1.8776]]) 
In [155]: plt.figure(figsize=(10, 6)) 
plt.plot(res.T[0], res.T[1], '‘ro'); 





o 查询 采用 字符 串 对 象 的 形式 ，4 个 条 件 用 逻辑 运算 符 组 合 。 
@ 基于 查询 的 迭代 天 对 象 。 

© 从 查询 得 到 的 数据 行 通 过 列表 推导 被 收集 。 

O 转换 为 ndarray WR. 


























-4 














9-6” 列 数据 的 直方 图 
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快速 查询 
pandas 和 PyTables 都 可 以 处 理 相 对 复杂 的 类 SQL 坦 


查询 和 选择 


o 


它们 


在 这 些 操作 上 都 对 速度 进行 了 优化 。 虽 然 这 些 方法 与 关系 数据 库 相 比 
还 有 一 些 局 限 性 ， 但 对 于 大 部 分 数值 和 金融 应 用 都 无 伤 大 雅 。 








正如 下 面 的 例子 所 示 , 从 语法 和 怕 





能 的 角度 看 , 以 表 ( Table ) 对 象 的 形式 使 用 PyTables 


中 保存 的 数据 ， 都 给 人 一 种 在 内 存 中 使 月 





H NumPy 或 者 pandas 对 象 的 印象 : 





In [156] SStime 
values = tab[:]['No3"] 
print ('Max %18.3f' % values.max() ) 
print ('Ave %18.3f' % values.mean() ) 
print ('Min %18.3f' % values.min() ) 
print ("Std %18.3f' % values.std()) 
Max 5.224 
Ave 0.000 
Min -5.649 
Std 1.000 
CPU times: user 163 ms, sys: 70.4 ms, total: 233 ms 
Wall time: 234 ms 
In [157]: %%time 
res = [(row['Nol'], row['No2']) for row in 
tab.where('((Nol > 9800) | (Nol < 200)) \ 
& ((No2 > 4500) & (No2 < 5500))')] 
CPU times: user 165 ms, sys: 52.5 ms, total: 218 ms 
Wall time: 155 ms 
In [158]: for r in res[:4]: 
Le 
(9 4870) 
gags: 5026 
(9846, 4859 
(9823, 5069 
In [159]: %%time 
res = [(row['Nol'], row['No2']) for row in 
tab.where(' (Nol == 1234) & (No2 > 9776)')] 
CPU times: user 58.9 ms, sys: 40.5 ms, total: 99.4 ms 
Wall time: 81 ms 
In [160]: for r in res: 
print (r) 
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(1234, 9841) 
(1234, 9821) 
(1234, 9867) 
(1234, 9987) 
(1234, 9849) 
(1234, 9800) 


9.3.2 使 用 压缩 表 

使 用 PyTables 的 主要 优势 之 一 是 压缩 方法 。 使 用 压缩 不 仅 能 节约 磁盘 空间 ， 还 能 改善 
VO 操作 的 性 能 。 这 是 如 何 实现 的 呢 ? 当 VO 成 为 瓶颈 而 CPU 能 够 快速 ( 解 ) 压缩 数据 时 ， 
使 用 压缩 对 速度 有 正面 的 净 效 应 。 下 面 的 例子 基于 最 新 型 ( 在 编写 本 书 时 ) SSD 的 IO 
操作 ， 因 此 没有 观察 到 压缩 的 速度 优势 。 但 是 ， 使 用 压缩 几乎 没有 任何 劣势 : 


In [161]: filename = path + 'pytabc.h5' 


















































In L62]: h5c = tb.open_file (filename, 'w') 


In [163]: filters = tb.Filters(complevel=5, © 
complib='blosc') @ 














In L64]: tabc = h5c.create_table('/', 'ints_floats', sarray, 
title="Integers and Floats', 
expectedrows=rows, filters=filters) 


In [165]: query = '((No3 < -0.5) | (No3 > 0.5)) & ((No4 < -1) | (No4 > 1))' 
In [166]: iteratorc = tabc.where(query) ® 


In [167]: štime res = [(row['No3'], row['No4']) for row in iteratorc]® 
CPU times: user 300 ms, sys: 50.8 ms, total: 351 ms 
Wall time: 311 ms 


In [168]: res = np.array (res) 
res[:3] 
Out [168]: array([[0.7694, 1.4866], 
[0.9201, 1.3346], 
[1.4701, 1.8776]]) 








@ complevel (压缩 级 别 ) 参数 取 值 范围 为 0 ( 无 压缩 ) 到 9 ( 最 高 压缩 率 )。 
@ 使 用 Blosc 压缩 引擎 ， 该 引擎 优化 了 性 能 。 

© 根据 之 前 的 查询 来 创建 迭代 器 对 象 。 

O 查询 得 到 的 数据 行 可 通过 列表 推导 进行 收集 。 
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生成 包含 原始 数据 的 压缩 表 并 在 上 面 进行 分 析 ， 其 速度 比 在 未 压缩 的 表 上 稍 慢 。 那 么 
BA ndarray 会 如 何 呢 ? 我 们 检查 一 
In [169]: $time arr_non = tab.read() © 


CPU times: user 63 ms, sys: 78.5 ms, total: 142 ms 
Wall time: 149 ms 





In [170]: tab.size_on_disk 
Out [170]: 100122200 


In [171]: arr_non.nbytes 
Out [171]: 100000000 











In [172]: $time arr_com = tabc.read() @ 
CPU times: user 106 ms, sys: 55.5 ms, total: 161 ms 
Wall time: 173 ms 


In [173]: tabc.size_on_disk 
Out [173]: 41306140 


In [174]: arr_com.nbytes 
Out [174]: 100000000 














In [175]: 11 $path* © 

-rw-r--r-- 1 yves- staff 200312336 Oct 19 12:12 
/Users/yves/Temp/data/pytab.h5 

-rw-r--r-- 1 yves staff 41341436 Oct 19 12:12 
/Users/yves/Temp/data/pytabc.h5 





In [176]: h5c.close() @ 


@ 从 未 压缩 的 表 对 象 tab 读 取 。 

@ 从 压缩 表 对 象 fabc 读 取 。 

© 比较 大 小 一 一 压缩 表 的 尺寸 明显 减 小 。 
@ 关闭 数据 库 文件 。 


上 述 例子 说 明 ， 与 未 压缩 的 表 相 比 ， 使 用 压缩 表 对 象 在 速度 上 几乎 没有 任何 差别 。 但 
是 磁盘 文件 尺寸 可 能 显著 减 小 ( 取决 于 数据 质量 )， 这 有 几 个 优点 : 


。 ”降低 存储 成 本 
。 ”降低 备份 成 本 ; 
。 ”降低 网 络 流量 ; 

e 高 网 络 速 度 ( 远程 服务 器 存储 及 检索 更 快 
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© IŽK CPU 利用 率 以 克服 IO Fi. 


9.3.3 ”使 用 数组 


在 9.1 节 中 我 们 已 经 看 到 ，NumPy 内 建 ndarray 对 象 的 快速 写 和 信和 读 取 能 力 。PyTables 
在 存储 和 检索 ndarray 对 象 时 也 相当 快速 、 高 效 。 由 于 它 基 于 层次 数据 库 结 构 ， 所 以 














具备 许多 方便 的 特性 : 
In [177]: %%time 
arr_int = h5.create_array('/', '‘integers', ran_int) 0 


In [178]: 
Out [178]: 
In [179]: 


arr_flo = h5.create_array('/', 'floats', ran_flo) © 
CPU times: user 4.26 ms, sys: 37.2 ms, total: 41.5 ms 
Wall time: 46.2 ms 


h5® 
File (filename=/Users/yves/Temp/data/pytab.h5, title='', mode='w', 
root_uep='/', filters=Filters(complevel=0, shuffle=False, 

bitshuffle=False, fletcher32=False, least_significant_digit=None) ) 





(RootGroup) '' 
/floats (Array(2000000, 2)) '! 
atom := Floaté6é4Atom(shape=(), df1t=0.0) 
maindim := 0 
flavor := 'numpy' 
byteorder := 'little' 
chunkshape := None 


/integers (Array(2000000, 2)) '' 


atom := Inté64Atom(shape=(), dflt=0) 
maindim := 0 

flavor := 'numpy' 

byteorder := 'little' 

chunkshape := None 


/ints_floats (Table(2000000,)) ‘Integers and Floats' 


description := { 

"Date": StringCol(itemsize=26, shape=(), dflt=b'', pos=0), 
"Nol": Int32Col(shape=(), dflt=0, pos=1), 

"No2": Int32Col(shape=(), dflt=0, pos=2), 

"No3": Float64Col(shape=(), dflt=0.0, pos=3), 

"No4": Float64Col(shape=(), dflt=0.0, pos=4) } 


byteorder := 'little' 
chunkshape := (2621,) 
11 $path* 


-rw-r--r-- 1 yves staff 262344490 Oct 19 12:12 
/Users/yves/Temp/data/pytab.h5 
-rw-r--r-- 1 yves staff 41341436 Oct 19 12:12 
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/Users/yves/Temp/data/pytabc.h5 
In [180]: h5.close() 
In [181]: !rm =f Spath* 


O (RF ndarray WH ran_int 





@ 保存 ndarray $F ran_flo, 
O 在 对 象 描述 中 反映 更 改 。 


将 这 些 对 象 直 接 写 人 HDF5 数据 库 ， 比 循环 读 取 对 象 、 然 后 逐 行 写 





结构 化 ndarray 对 象 的 方法 都 要 快 。 


基于 HDFS 的 数据 存储 





入 表 对 象 或 者 使 用 


HDF5 数据 库 (文件 ) 格式 是 结构 化 数值 和 金融 数据 的 强大 替代 方案 ， 
可 以 用 它 来 代替 关系 数据 库 。 在 使 用 PyTables 时 单独 访问 或 者 结合 


pandas 的 能 力 ， 都 可 以 得 到 硬件 所 能 支持 的 最 高 IO 性 能 


9.3.4 内 存 外 计算 





PyTables 支持 内 存 外 计算 ， ea 以 实现 不 适合 于 内 存 的 基于 数组 的 计算 。 为 此 , 考虑 


以 下 基于 EArray 类 的 代码 。 
数 ) 必须 固定 : 


In [182]: filename = path + 'earray.h5' 


In [183]: h5 = tb.open_file (filename, 'w') 


In [184]: n = 500 0 











In [185]: ear = h5.create_earray('/', ‘ear', 


这 种 对 象 可 在 一 维 〈 行 方向 ) 上 扩展 ， 但 列 数 〈 每 行 元 素 


atom=tb.Float64Atom(), © 


shape=(0, n)) 


In [186]: type (ear) 
Out [186]: tables.earray.Earray 





In [187]: rand = np.random.standard_normal((n, n)) © 


rand[:4, :4] 


Out [187]: array ([[-1.25983231, 1.11420699, 0.1667485 , 0.7345676 Jj, 


[-0.13785424, 1.22232417, 


1.36303097, 0.13521042], 


[ 1.45487119, -1.47784078, 0.15027672, 0.86755989], 
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[-0.63519366, 0.1516327 , -0.64939447, -0.45010975]]) 





In [188]: %%time 
for _ in range(750): 
ear.append (rand) © 
ear.flush() 
CPU times: user 814 ms, sys: 1.18 s, total: 1.99 s 
Wall time: 2.53 s 
In [189]: ear 
Out [189]: /ear (EArray (375000, 500)) '' 
atom := Float64Atom(shape=(), dflt=0.0) 
maindim := 0 
flavor := 'numpy' 
byteorder := 'little' 
chunkshape := (16, 500) 
In [190]: ear.size_on_disk 
Out [190]: 1500032000 
@ 固定 的 列 数 。 
O EArray 对 象 的 路 径 和 技术 名 称 。 
© 单个 值 的 原子 dtype 对 象 。 
O 实例 组 成 (0 行 , n 列 )。 


© 包含 随机 数 的 ndarray WR, 
@ 进行 多 次 附加 操作 。 
对 于 没有 导致 聚合 的 内 存 外 计算 , 需要 另 一 个 同样 组 成 (大 小 ) 的 EArray 对 象 。 PyTables 


有 一 个 特殊 模块 ， 可 以 高 效 处 理 数值 表达 式 。 这 个 模块 叫 作 Expr， 它 基于 数值 表达 式 
库 numexpr。 下 面 的 代码 使 用 Expr， 在 上 例 中 的 整个 EArray 对 象 上 计算 公式 9-1 





所 示 的 数学 表达 式 。 
公式 9-1 数学 表达 式 示例 


y=3sin(x)+ Vx| 


结果 保存 在 EArray 对 象 out 中 ， 表 达 式 的 求 值 成 批 进行 : 





In [191]: out = h5.create_earray('/', ‘'out', 
atom=tb.Float64Atom(), 
shape=(0, n)) 
In [192]: out.size_on_disk 
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Out [192 0 
In [193 expr = tb.Expr('3 * sin(ear) + sqrt (abs (ear))') © 
In [194 expr.set_output (out, append_mode=True) @ 
In [195 Stime expr.eval()® 
CPU times: user 3.08 s, sys: 1.7 s, total: 4.78 s 
Wall time: 4.03 s 
Out [195]: /out (EArray (375000, 500)) '' 
atom := Floaté64Atom(shape=(), dflt=0.0) 
maindim := 
flavor := 'numpy' 
byteorder ‘little' 
chunkshape := (16, 500) 
In [196]: out.size_on_disk 
Out [196]: 1500032000 
In [197]: out[0, :10] 
Out [197]: array ([-1.73369462, 3.74824436, 0.90627898, 2.86786818, 
1.75424957, 
—0.91108973, —1.68313885, 1.29073295, -1.68665599, -—1.71345309]) 
In [198]: %time out_ = out.read() @ 
CPU times: user 1.03 s, sys: 1.1 s, total: 2.13 s 
Wall time: 2.22 s 
In [199]: out_[0, :10] 
Out [199]: array ([-1.73369462, 3.74824436, 0.90627898, 2.86786818, 


1.75424957, 
-0.91108973, 


-1.68313885, 


1.29073295, -1.68665599, -1.71345309]) 


@ 将 一 个 基于 表达 式 的 str 对 象 转换 为 Expr WE. 
@ 定义 输出 为 EArray WE out. 
© 


初始 化 表达 式 的 值 。 


O 将 整个 EArray EAN 





区 虚 到 整个 运算 在 内 存 外 进行 ， 

















这 样 的 结果 应 该 算 相当 快速 了 ， 尤 其 是 在 标准 硬件 上 


执行 时 。 我 们 简单 地 将 其 与 numexpr 模块 在 内 存 中 的 性 能 做 个 比较 ( 参见 第 10 章 )。 
速度 提高 了 ， 但 不 是 非常 巨大 的 提高 : 
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In [200]: import numexpr as ne © 


[In [201]: expr = '3 * sin(out_) + sqrt (abs(out_))'®@ 


In [202]: ne.set_num_threads (1) ® 
Out [202]: 4 











In [203]: %time ne.evaluate(expr)[0, :10] @ 
CPU times: user 2.51 s, sys: 1.54 s, total: 4.05 s 
Wall time: 4.94 s 


Out [203]: array([-1.64358578, 0.22567882, 3.31363043, 2.50443549, 
4.27413965, 
-1.41600606, -1.68373023, 4.01921805, -1.68117412, -1.66053597]) 


In [204]: ne.set_num_threads(4) © 

Out [204]: 1 

In [205]: %time ne.evaluate (expr) [0, :10]©@ 
CPU times: user 3.39 s, sys: 1.94 s, total: 5.32 s 
Wall time: 2.96 s 


Out [205]: array([-1.64358578, 0.22567882, 3.31363043, 2.50443549, 
4.27413965, 
-1.41600606, -1.68373023, 4.01921805, -1.68117412, -1.66053597]) 


In [206]: h5.close() 


In [207]: !rm -f Spath* 


O 导入 在 内 存 中 求 数值 表达 式 的 值 所 用 的 模块 。 
@ 字符 串 对 象形 式 的 数值 表达 式 。 
© 将 线程 数 设 置 为 1。 
过 单个 线程 在 内 存 中 求 数值 表达 式 的 值 。 
O 将 线程 数 设 置 为 4。 
@ 通过 4 个 线程 在 内 存 中 求 数值 表达 式 的 值 。 








9.4 TsTables BY I/O 


TsTables 软件 包 使 用 PyTables 来 为 时 间 序 列 数据 构建 高 性 能 存储 。 主 要 使 用 场景 是 “一 次 
写 人 ， 多 次 检索 "。 这 在 金融 分 析 中 是 典型 的 场景 : 数据 在 市 场 中 创建 ， 实 时 或 者 异步 读 
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取 ， 并 存储 在 磁盘 上 供 以 后 使 用 。 该 数据 可 能 用 于 较 大 的 交易 策略 验证 程序 ， 这 种 程序 需 
要 一 次 又 一 次 地 使 用 历史 金融 时 间 序 列 数据 的 不 同 子 集 ， 此 时 快速 的 数据 检索 非常 重要 。 


9.4.1 样板 数据 
和 往常 一 样 ， 第 一 个 任务 是 生成 足够 大 的 样板 数据 集 ， 以 说 明 TsTables 的 优势 。 以 下 
的 代码 基于 对 几何 布朗 运动 (参见 第 12 章 ) 的 模拟 生成 了 3 个 相当 长 的 金融 时 间 序列 : 


In [208]: no = 5000000 © 
co =3 0 
interval = 1. / (12 * 30 * 24 * 60) ® 
vol = 0.2 9 
In [209]: %%time 
rn = np.random.standard_normal((no, co) ) © 
rn[0] = 0.0 @ 
paths = 100 * np.exp(np.cumsum(-0.5 * vol xx 2 * interval + 

















vol * np.sqrt (interval) * rn, axis=0)) @ 
paths[0] = 100 ® 

CPU times: user 869 ms, sys: 175 ms, total: 1.04 s 
Wall time: 812 ms 


@ 时 间 步 数 。 

@ 时 间 序 列 数量 。 

© 以 年 表示 的 时 间 间 隔 。 

@ 波动 率 。 

@ 标准 正 态 分 布 随 机 数 。 

@ 将 初始 随机 数 设置 为 0。 
@ 基于 欧 拉 离散 的 模拟 。 

@ 将 初始 路 径 值 设置 为 100。 


由 于 TsTables 能 够 很 好 地 处 理 pandas 的 DataFrame 对 象 , 所 以 我 们 将 数据 转换 成 
这 样 的 对 象 ( 见 图 9-7 ): 


In [210]: dr = pd.date_range('2019-1-1', periods=no, freq='1s') 














In [211]: dr[-6:] 
Out [211]: DatetimeIndex(['2019-02-27 20:53:14', '2019-02-27 20:53:15', 
"2019-02-27 20:53:16', '2019-02-27 20:53:17', 
"2019-02-27 20:53:18', '2019-02-27 20:53:19'], 
dtype='datetimeé6é4[ns]', freq='S"') 


In [212]: df = pd.DataFrame (paths, index=dr, columns=['tsl', 'ts2"', 'ts3']) 





9.4 TsTables 的 VO 257 


In [213]: df.info() 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 5000000 entries, 2019-01-01 00:00:00 to 2019-02-27 





20:53:19 
Freq: S 
Data columns (total 3 columns): 
tsl float64 
ts2 float64 
ts3 float64 


dtypes: floaté64 (3) 
memory usage: 152.6 MB 

In [214]: df.head() 

Out [214]: tsl ts2 ts3 
2019-01-01 00:00:00 100.000000 100.000000 100.000000 
2019-01-01 00:00:01 100.018443 99.966644 99.998255 
2019-01-01 00:00:02 100.069023 100.004420 99.986646 
2019-01-01 00:00:03 100.086757 100.000246 99.992042 
2019-01-01 00:00:04 100.105448 100.036033 99.950618 





In [215]: df[::100000] .plot (figsize=(10, 6)); 








ts1 
ts2 
ts3 
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9-7 ”在 金融 时 间 序列 中 选择 的 数据 点 


9.4.2 ”数据 存储 
TsTables 的 金融 时 间 序 列 数据 的 存储 基于 特殊 的 块 式 结构 ， 能 够 快速 检索 由 某 种 时 间 
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间隔 定义 的 任意 数据 子 集 。 为 此 ， 该 软件 包 为 PyTables 增加 了 函数 create_ts(). 
面 我 们 使 用 基于 PyTables 中 tb. IsDescription 类 的 方法 ， 提 供 表 各 列 的 数据 类 型 


In [216] : 


In [217]: 


In [218]: 


In [219]: 


In [220]: 


In [221]: 
Out [221]: 


In [222]: 








下 


import tstables as tstab 


class ts_desc(tb.IsDescription) : 
timestamp = tb.Int64Col(pos=0) © 
tsl = tb.Float64Col(pos=1) @ 
ts2 = tb.Float64Col(pos=2) @ 
ts3 = tb.Float64Col(pos=3) @ 
h5 = tb.open_file(path + 'tstab.h5', 'w') © 


ts = h5.create_ts('/', 'ts', ts_desc) @ 


Stime ts.append(df) © 
CPU times: user 1.36 s, sys: 497 ms, total: 1.86 s 
Wall time: 1.29 s 


type (ts) 
tstables.tstable.TsTable 


ls -n $path 
total 328472 
-rw-r--r-- 1 501 20 157037368 Oct 19 12:13 tstab.h5 


O HY BST 

@ 保存 数值 数据 的 列 。 

© 打开 HDF5 数据 库 文件 以 便 写 入 (w )。 

O 根据 ts_desc 对 象 创建 TsTable 对 象 。 

O 将 DataFrame 对 象 的 数据 附加 到 TsTable 对 象 。 


94.3 数据 检索 


尽管 依赖 于 硬件 ， 但 用 TsTables 写 入 数据 的 速度 明显 很 快 。 将 大 块 数据 读 回 内 存 时 也 
一 样 。 很 方便 的 是 ，TsTables 返回 一 个 DataFrame 对 象 ( 见 图 9-8 ): 


In [223]: 


In [224]: 


In [225]: 








read_start_dt = dt.datetime(2019, 2, 1, 0, 0) © 
read_end_dt = dt.datetime(2019, 2, 5, 23, 59) @ 


štime rows = ts.read_range(read_start_dt, read_end_dt) 日 
CPU times: user 182 ms, sys: 73.5 ms, total: 255 ms 
Wall time: 163 ms 


rows.info() ® 
<class 'pandas.core.frame.DataFrame'> 
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DatetimeIndex: 431941 entries, 2019-02-01 00:00:00 to 2019-02-05 
23:59:00 

Data columns (total 3 columns): 

tsl 431941 non-null float64 

ts2 431941 non-null float64 

ts3 431941 non-null float64 

dtypes: floaté64 (3) 

memory usage: 13.2 MB 


In [226]: rows.head() @ 

Out [226]: tsl ts2 ts3 
2019-02-01 00:00:00 52.063640 40.474580 217.324713 
2019-02-01 00:00:01 52.087455 40.471911 217.250070 
2019-02-01 00:00:02 52.084808 40.458013 217.228712 
2019-02-01 00:00:03 52.073536 40.451408 217.302912 
2019-02-01 00:00:04 52.056133 40.450951 217.207481 


In [227]: h5.close() 
In [228]: (rows[::500] / rows.iloc[0]).plot (figsize=(10, 6)); 
区 间 起 始 时 间 。 
区 间 结 束 时 间 。 
ts.read_range () 图 数 返 回 区 间 的 DataFrame 对 象 。 
DataFrame 对 象 有 几 十 万 行 数 据 。 


© © © © 





—— tsl 
ws 162 
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9-8 特定 时 间 段 的 金融 时 间 序 列 ( 已 规格 化 ) 
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为 了 更 好 地 说 明基 于 TsTables 数据 检索 的 性 能 , 考虑 如 下 基准 程序 , 该 程序 读 取 100 
块 数据 ， 这 些 数据 由 4 天 的 秒 数据 组 成 。 读 取 包 含 345 600 行 数据 的 DataFrame Xj% 
花费 的 时 间 不 到 0.1s: 


In [229 


In [230 


In [231 








In [232 


In [233]: 


In [234]: 




















import random 


: h5 = th.open_file(path + 'tstab.h5', 'r') 


: ts = h5.root.ts._f_get_timeseries()@ 


Sstime 

for _ in range(100): @ 
d = random.randint(1, 24) © 
read_start_dt = dt.datetime(2019, 2, d, 0, 0, 0) 
read_end_dt = dt.datetime(2019, 2, d+ 3, 23, 59, 59) 
rows = ts.read_range(read_start_dt, read_end_dt) 

CPU times: user 7.17 s, sys: 1.65 s, total: 8.81 s 

Wall time: 4.78 s 


rows.info() @ 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 345600 entries, 2019-02-04 00:00:00 to 2019-02-07 
23:59:59 

Data columns (total 3 columns): 

tsl 345600 non-null float64 

ts2 345600 non-null float64 

ts3 345600 non-null float64 

dtypes: floaté64 (3) 


memory usage: 10.5 MB 


!rm $path/tstab.h5 


O 连接 到 TsTable WE. 
@ 数据 检索 重复 多 次 。 
© 随机 化 起 始 日 值 。 


O 读 取 最 后 一 个 DataFrame 对 象 。 


9.5 结语 
基于 SQL ( 即 关 系 ) 的 数据 库 在 单个 对 象 /表格 之 间 存在 大 量 关 系 的 复杂 数据 结构 上 具 
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有 优势 ， 这 可 以 为 某 些 情况 下 它们 的 性 能 劣 于 基于 ndarray 的 纯 NumPy 方法 或 者 基于 
DataFrame 的 pandas 方法 辩解 。 
不 过 ， 金 融 或 者 科学 中 的 许多 应 用 领域 通常 使 用 基于 数组 的 数据 建 模 方法 。 在 这 些 情 
况 下 ， 使 用 原生 NumPy IO 功能 、 结 合 NumPy 和 PyTables 的 能 力 ， 或 者 通过 基于 HDFS 
存储 的 pandas 方法 ， 可 以 实现 巨大 的 性 能 改进 。 
TsTable 在 处 理 大 型 (金融 ) 时 间 序 列 数据 集 时 特别 有 用 ， 尤 其 在 “一 次 写 人 ， 多 次 
检索 ”的 场景 中 。 
虽然 近来 的 趋势 是 使 用 基于 云 的 解决 方案 云 由 大 量 基 于 商用 硬件 的 计算 节点 组 
成 一 一 但 是 人 们 应 该 小 心 考虑 ， 特 别 是 在 金融 领域 ， 哪 一 种 硬件 架构 最 适合 于 分 析 需 
求 。Microsoft 最 近 的 一 项 研究 前 明了 这 一 主题 : 
我 们 断言 ， 单 个 “垂直 扩容 ”服务 器 能 够 处 理 所 有 此 类 工作 ， 并 且 在 性 能 、 
成 本 、 电 源 消耗 和 服务 器 密度 上 与 群集 相当 或 者 更 好 。 
一 一 Appuswamy 等 人 (2013 ) 
因此 ， 参 与 数据 分 析 的 公司 、 研 究 机 构 和 其 他 组 织 应 该 首先 分 析 需 要 完成 的 特定 任务 ， 
然后 决定 根据 以 下 方式 决定 硬件 /软件 架构 。 
KEPE 
使 用 具有 许多 商用 节点 的 群集 ， 每 个 节点 采用 标准 CPU 和 相对 较 少 的 内 存 。 
BALE 
使 用 一 个 或 者 少数 强大 的 具有 多 核 CPU 的 服务 器 ， 可 能 它 还 有 一 个 GPU 以 及 大 量 
内 存 ， 甚 至 在 需要 机 器 学 习 和 深度 学 习 起 作用 时 还 有 TPU。 


垂直 扩容 硬件 并 应 用 不 同 的 实现 方法 可 能 会 显著 影响 性 能 ， 下 一 章 将 更 详细 地 介绍 这 
个 主题 。 










































































9.6 ”延伸 阅读 


本 章 开 始 和 结束 中 引用 的 论文 是 很 好 的 读物 ， 也 是 思考 金融 分 析 硬 件 架 构 的 很 好 起 点 。 
Appuswamy, Raja, et al. (2013). Nobody Ever Got Fired for Buying a Cluster. Microsoft 








Technical Report. 
和 往常 一 样 ，Web 提供 了 与 本 章 介绍 的 主题 及 Python 软件 包 相 关 的 许多 有 价值 资源 : 
e 用 pickle 进行 的 Python 对 象 序列 化 参见 Python 官方 文档 ; 

e ”SciPy 网 站 提供 了 NumPy IO 能 力 的 概述 ; 
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e pandas 在 线 文 档 的 IO ET; 
e ”PyTables 首页 提供 的 教程 和 详细 文档 ; 
e ”TsTables 的 更 多 信息 可 以 参见 其 GitHub 页 面 。 











在 GitHub yhilpisch 中 可 以 找到 TsTables 的 一 个 友好 的 分 文 。 安 装 这 个 分 文中 的 软件 包 ， 





这 些 软件 包 维 护 新 版 本 的 pandas 和 其 他 Python 软 伯 


F 包 的 兼容 性 。 
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第 10 章 


0U00 Python 





不 要 降低 预期 去 屈 就 性 能 ， 而 要 提升 性 能 满足 预期 。 
— HRA 马 斯 顿 


有 一 种 长 期 存在 的 偏见 ， 认 为 Python 本 身 是 一 种 相对 低 效 的 编程 语言 ， 不 适合 用 来 处 
理 金融 业务 的 计算 任务 。 除 了 Python 是 一 种 解释 型 语言 之 外 ， 出 现 这 种 偏见 的 推理 方 
式 通常 是 : Python 处 理 循环 时 很 慢 ， 金 融 算法 的 实现 往往 需要 循环 ， 因 此 ，Python 对 
金融 算法 的 实现 来 说 太 慢 了 。 男 一 种 推理 方式 是 : 其 他 ( 编译 型 ) 语言 (如 C 或 者 
C++ ) 可 以 快速 执行 循环 ,金融 算法 常常 需要 和 人 循环， 因此， 这些 ( 编译 型 ) 编程 语言 适 
合 于 金融 业 和 人 金融 算法 。 

必须 承认 ， 即 便 写 出 合适 的 Python 代码 ， 也 有 可 能 执行 得 很 慢 一 一 可 能 对 于 许多 应 用 
领域 大 慢 。 本 章 介 绍 的 是 加 速 金 融 环境 下 常见 典型 任务 及 算法 的 方法 。 本 章 将 介绍 ， 

如 何 明智 地 使 用 数据 结构 、 选 择 合适 的 实现 方法 及 范 型 ， 以 及 使 用 正确 的 高 性 能 软件 包 。 

Python 其 至 可 以 与 编译 型 编程 语言 匹敌 ,这 是 因为 它 本 身 也 是 编译 后 执行 的 。 


为 此 ， 本 章 将 介绍 让 代码 加 速 的 不 同方 法 。 
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EA 
利用 Python 的 向 量化 功能 ， 是 前 几 章 已 经 广泛 使 用 的 方法 。 
5b & a 





Numba 软件 包 可 以 让 我 们 使 用 LLVM 技术 来 动态 地 编译 纯 Python 代码 。 
HEME 


Cython 不 仅 是 一 个 Python 软件 包 ， 还 是 一 种 组 合 了 Python 和 C 的 混合 语言 。 例 
如 ， 它 可 以 使 用 静态 类 型 声明 ， 静 态 编译 经 过 调整 的 代码 。 
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Zu 
Python 的 multiprocessing 模块 可 以 简便 地 实现 代码 并 行 执行 。 
本 章 介绍 如 下 内 容 。 





WR 
本 节 介 绍 Python 循环 及 其 加 速 方法 。 





本 节 讲 解 的 是 常用 作 性 能 基准 的 标准 数学 算法 ， 例 如 斐 波 那 契 数 列 的 生成 。 

=X H 
二 项 式 期 权 定价 模型 是 广泛 使 用 的 金融 模型 ， 可 作为 更 复杂 金融 算法 的 一 个 案例 
分 析 。 

RGF BRU 
类 似 地 ， 蒙 特 卡 洛 模拟 在 金融 实践 中 广泛 用 于 定价 和 风险 管理 。 这 种 算法 对 计算 
的 要 求 很 高 ， 长 期 被 视 为 C 或 者 C++ 语言 的 “领地 ”。 

pandas  /2 7% 


本 节 介 绍 基于 金融 时 间 序 列 数据 的 递归 算法 的 加 速 。 特 别 地 ， 它 还 介绍 了 计算 指 
数 加 权 移 动 平均 数 CEWMA ) 的 不 同 实现 方法 。 
































10.1 循环 


本 节 解 决 Python 的 循环 问题 。 任 务 相 当 简单 : 编写 一 个 函数 提取 “大 量 ” 随 机 数 ， 然 后 返 
回 平均 值 。 我 们 感 兴趣 的 是 执行 时 间 ， 这 可 以 用 神奇 的 Stime 和 $timeit 函数 估算 。 
10.1.1 Python 
让 我 们 “ 慢 慢 ”地 开始 
的 average_py(): 


























原谅 我 的 双关 语 。 在 纯 Python 中 ， 这 样 的 函数 可 能 像 下 面 


In [1]: import random 


In [2]: def average_py(n): 
s=0 0 
for i in range (n): 
s += random.random() @ 
return s /n ® 


In [3]: n = 10000000 ® 
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In [4]: %time average_py(n) © 


CPU times: user 1.82 s, sys: 10.4 ms, total: 


Wall time: 1.93 s 
Out [4]: 0.5000590124747943 


In [5]: %Stimeit average_py (n) © 
1.31 s + 159 ms per loop (mean + std. dev. 


of 7 runs, 


In [6]: $time sum([random.random() for in range(n)]) /n 


CPU times: user 1.55 s, sys: 188 ms, total: 1.74 s 


Wall time: 1.74 s 


Out [6]: 0.49987031710661173 
O 初始 化 变量 s 的 值 。 

@ 在 s 中 添加 区 间 (0,1) 的 均匀 分 布 随机 值 。 
© 返回 平均 值 。 

@ 定义 循环 次 数 。 

O 测定 函数 执行 一 次 的 时 间 。 

O 多 次 测定 函数 执行 时 间 ， 得 到 更 可 靠 的 估算 。 
@ 使 用 列表 推导 代替 函数 。 

这 为 以 后 的 其 他 方法 设置 了 基准 。 

10.1.2 NumPy 











1.83 s 


1 loop each) 


7) 


NumPy 的 优势 在 于 其 向 量化 能 力 。 从 形式 上 看 , Python 级 别 的 循环 消失 了 ; 循环 在 更 次 的 
一 级 上 , 由 NumPy 提供 的 优化 和 预 编译 例 程 执行 average_np O 函数 利用 了 这 种 方法 : 


In [7]: import numpy as np 


In [8]: def average_np(n): 
s = np.random.random(n) © 
return s.mean() @ 

















In [9]: %Stime average_np(n) 
CPU times: user 180 ms, sys: 43.2 ms, total: 223 ms 
Wall time: 224 ms 
1 NumPy 也 可 以 使 用 专用 的 数学 库 ， 如 Intel 数学 核心 库 。 一 一 原 注 
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Out [9]: 0.49988861556468317 

In [10]: %timeit average_np(n) 

In [11]: s = np.random. random (n) 
s.nbytes © 

Out [11]: 80000000 





o 
@ 返回 平均 值 。 
© 创建 的 ndarray 对 象 使 用 的 字 节 数 。 


128 ms + 2.01 ms per loop (mean + std. dev. of 7 runs, 10 loops each) 


“一 次 性 ”提取 随机 数 〈 没 有 Python 循环 )。 


加 速 很 可 观 ， 几 乎 达到 10 倍 〈 一 个 数量 级 )。 然 而 ， 为 此 必须 付出 的 代价 是 明显 更 高 
的 内 存 使 用 率 。 这 是 因为 NumPy 依靠 预先 分 配 数 据 并 在 编译 后 的 层次 内 处 理 来 得 到 高 
速度 。 因 此 ， 用 这 种 方法 无 法 处 理 “ 流 化 ”数据 。 不 同 的 算法 或 者 问题 使 用 的 内 存量 
























































甚至 可 能 更 高 。 
向 量化 与 内 存 
在 一 切 可 能 的 情况 下 编写 向 量化 代码 是 很 有 诱惑 力 的 ， 因 为 它 具备 简 
洁 的 语法 ， 速 度 通常 也 有 所 加 快 。 不 过 ， 这 些 好 处 也 是 有 代价 的 ， 通 
常 带 来 更 大 的 内 存 占用 。 
10.1.3 Numba 
Numba 软件 包 通 过 使 用 LLVM 可 以 动态 地 编译 纯 Python 代码 。 在 简单 的 情况 下 (如 以 
下 的 代码 )， 它 的 应 用 非常 直观 ， 用 于 动态 编译 的 average_nb () 函数 可 以 从 Python 
直接 调用 : 
In [12]: import numba 
In [13]: average_nb = numba.jit(average_py) ©| 
In [14]: %time average_nb(n) @ 
CPU times: user 204 ms, sys: 34.3 ms, total: 239 ms 
Wall time: 278 ms 
Out [14]: 0.4998865391283664 
In [15]: %time average_nb(n) ® 
CPU times: user 80.9 ms, sys: 457 ws, total: 81.3 ms 
Wall time: 81.7 ms 
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Out [15]: 


Im FLET: 


0.5001357454250273 


Stimeit average_nb(n) 


75.5 ms + 1.95 ms per loop (mean + std. dev. of 7 runs, 10 loops each) 


@ 创建 Numba PAR. 








@ 编译 发 生 在 运行 时 ， 会 带 来 一 些 开销 。 
































© 从 第 二 次 执行 (使 用 相同 的 输入 数据 类 型 ) 起 ， 执 行 更 快 了 。 
纯 Python 和 Numba 的 组 合 战 胜 了 NumPy 版 本 ， 并 且 保 留 了 基于 循环 的 原始 实现 的 内 


存 效率 。 还 有 一 点 很 明显 ， 在 这 种 简单 情况 下 应 用 Numba 几乎 没有 任何 编程 开销 。 





























没有 免费 的 午餐 


对 比 Python 代码 和 编译 版 本 的 性 能 ，Numba 的 应 用 有 时 就 像 魔 法 ， 





特别 是 它 还 很 易于 使 有 用。 不过， 许多 情况 下 Numba 并 不 适用 ， 性 能 


增进 几乎 难以 察觉 ， 甚 至 无 法 实现 。 


10.1.4 Cython 
Cython 可 以 静态 编译 Python 代码 。 但 是 ， 它 的 应 用 不 像 Numba 那么 简单 ， 通 常 需要 


更 改 代 码 才能 























使 用 的 变量 引入 了 静态 类 型 声明 : 


In [17]: 


In [18]: 


Out [18]: 


In [19]: 


Out [19]: 


In [20]: 


Sload_ext Cython 


%%cython -a 
import random © 
def average_cyl(int n): @ 
cdef int i @ 
cdef float s = 0 @ 
for i in range(n): 
s += random. random() 
return s / n 


<IPython.core.display.HTML object> 

Stime average_cyl (n) 

CPU times: user 695 ms, sys: 4.31 ms, total: 699 ms 
Wall time: 711 ms 


0.49997106194496155 


Stimeit average_cyl (n) 

















到 明显 的 加 速 。 首 先 ， 考 虑 Cython KZ average_cy1 () ,该 函数 为 


752 ms + 91.1 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 
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© 在 Cython 上 下 文 里 导入 random 模块 。 
@ 为 变量 n、i 和 s 添加 静态 类 型 声明 。 


可 以 观察 到 一 些 加 速 ， 但 还 没有 达到 之 前 介绍 的 方法 ( 如 NumPy 版 本 ) 取得 的 效果 。 
有 必要 对 Cython 略 作 优化 ， 这 样 它 甚 至 可 以 击败 Numba 版 本 : 


In [21]: %%scython 
from libc.stdlib cimport rand © 




















cdef extern from 'limits.h': @ 
int INT_MAX @ 

cdef int i 
cdef float rn 
for i in range(5): 

rn = rand() / INT_MAX ® 

print (rn) 
-6792964339256287 
-934692919254303 
-3835020661354065 
-5194163918495178 
-8309653401374817 
In [22]: %%cython -a 

from libc.stdlib cimport rand © 


oOo oO 8 


cdef extern from 'limits.h': @ 
int INT_MAX @ 

def average_cy2 (int n): 
cdef int i 
cdef float s = 0 
for i in range(n): 

s += rand() / INT MAx ® 
return s / n 
Out [22]: <IPython.core.display.HTML object> 


In [23]: %time average_cy2 (n) 
CPU times: user 78.5 ms, sys: 422 us, total: 79 ms 
Wall time: 79.1 ms 


Out [23]: 0.500017523765564 


In [24]: %timeit average_cy2(n) 
65.4 ms + 706 hs per loop (mean + std. dev. of 7 runs, 10 loops each) 


o KC 中 导入 一 个 随机 数 生成 器 。 
@ 导入 一 个 恒定 值 ， 对 随机 数 按 比 例 进行 调整 。 
© 比例 调整 后 ， 添 加 区 间 (0,1) 中 的 均匀 分 布 随机 数 。 
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进一步 优化 的 Cython IAR KX average_cy2 ( 

















O 此 时 略 快 于 Numba 版 本 。 但 是 ， 


所 


花 的 精力 也 比较 多 。 与 NumPy 版 本 相 比 ，Cython 还 保留 了 基于 循环 实现 的 内 存 效率 。 


Cython = Python + C 





少 做 调整 一 一 例如 ， 


Cython 使 开发 人 员 可 以 尽 可 能 地 调整 代码 以 提高 


生 能 ， 也 可 以 明 智 地 
从 纯 Python 版 本 入 手 ， | 加 入 越 来 越 多 


的 C 语言 元 素 。 在 编译 步骤 中 也 可 以 设置 参数 ， 以 进一步 优化 编译 后 


的 版 本 。 


10.2 算法 


本 节 将 上 一 节 的 性 能 增强 技术 应 用 到 一 些 著 名 的 数学 问题 和 算法 上 。 这 些 算 法 经 常用 


作 性 能 基准 。 


10.2.1 质数 


质数 不 仅 在 理论 数学 中 起 到 了 重要 作用 ， 
是 如 此 。 质 数 是 大 于 1 J 
大 的 质数 很 稀有 ， 
是 找到 大 于 1 的 自然 数 因子 。 


















































1. Python 























测试 数值 是 不 是 质数 有 许多 算法 可 以 实现 。 
法 角度 说 不 是 最 优 的 ， 但 也 相当 高 效 。 不 过 








+ 1, 2): @ 


total: 35 us 


In [25]: def is_prime(I): 
if I % 2 == 0: return False © 
for i in range(3, int(I ** 0.5) 
if I % i == 0: return False ® 
return True @ 
In [26]: n = int(le8 + 3) © 
n 
Out [26]: 100000003 
In [27]: %time is_prime (n) 
CPU times: user 35 ws, sys: 0 ns, 
Wall time: 39.1 us 
Out[27]: False 





在 许多 计算 机 科学 应 用 学 科 ( 如 加 密 ) 中 也 
日 只 能 被 1 和 自身 整除 的 自然 数 ， 除 此 之 外 没有 其 他 因子 。 较 


寻找 起 来 很 难 ， 但 很 容易 证 明 某 个 数 不 是 质数 。 唯 一 需要 的 条 件 就 


是 算法 一 个 Python 版 本 ， 虽 然 它 从 算 
， 对 于 较 大 的 质数 p2， 其 执行 时 间 很 长 : 





10.2 算法 
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sys: 


sys: 


In [28]: pl = int(le8 + 7) © 
pl 
Out [28]: 100000007 
In [29]: %time is_prime (p1) 
CPU times: user 776 us, 
Wall time: 787 hs 
Out [29]: True 
In [30]: p2 = 100109100129162907 © 
In [31]: p2.bit_length() © 
Out: [34] 57 
In [32]: %time is_prime (p2) 
CPU times: user 22.6 s, 
Wall time: 22.7 s 
Out [32]: True 








@ 如 果 是 偶数 ， 立 即 返回 False。 
@ 循环 从 3 开始 ， 直 到 工 的 平方 根 +1， 步 长 为 2。 


© 确定 一 个 因子 之 后 ， 函 数 返 回 False, 


O 如 果 没 有 找到 因子 ,返回 True, 
@ 相对 小 的 非 质数 和 质数 。 


O 较 大 的 质数 需要 更 长 的 执行 时 间 。 


1 ps, tot 


44.7 ms, 


al: 777 


total: 














us 


2236S 





2. Numba 
函数 is_prime () 中 的 算法 循环 结构 由 Numba AE FAIRS, MIER 
很 可 观 : 
In [33]: is_prime_nb = numba.jit (is_prime) 
In [34]: %time is_prime_nb(n) © 
CPU times: user 87.5 ms, sys: 7.91 ms, total: 95.4 ms 
Wall time: 93.7 ms 
Out [34]: False 
In [35]: %time is_prime_nb(n) @ 
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CPU times: user 9 us, sys: 
Wall time: 13.6 us 

Out [35]: False 

In [36]: %time is_prime_nb (p1) 
CPU times: user 26 us, sys: 
Wall time: 31 us 

Out [36]: True 

In [37]: %time is_prime_nb(p2) © 
CPU times: user 1.72 s, sys: 
Wall time: 1.74 s 

Out [37]: True 





o 第 一 次 调用 is_prime_nb () 涉及 编译 开销 。 














le+03 ns, total: 10 us 
Ons, total: 26 us 
9.7 ms, total: 1.73 s 


@ 从 第 二 次 调用 起 ， 可 以 较为 全 面 地 看 到 加 速 的 效果 。 








O 较 大 质数 的 速度 提高 了 大 约 一 个 数量 级 。 

















Cython 的 应 用 也 很 简单 。 没 有 类 型 声明 的 普通 Cython 版 本 已 经 明显 加 快 了 执行 代码 的 速度 : 


ES oh A ob 


1 2)% 


std. dev. of 7 runs, 1000 loops each) 


3. Cython 
In [38]: %%cython 
def is_prime_cyl (I): 
if I % 2 == return False 
for i in range (3, 
if I % i == return False 
return True 
In [39]: %timeit is_prime (p1) 
394 ps + 14.7 hs per loop (mean + 
In [40]: %timeit is_prime_cyl (p1) 


243 hs + 6.58 hs per loop (mean 





+ 


std. dev. of 7 runs, 1000 loops each) 


不 过 ,真正 的 改进 只 有 使 用 静态 类 型 声明 才能 实现 。 此 时 ，Cython 版 本 甚至 稍 快 于 Numba: 


In [41]: %%cython 

def is_prime_cy2 (long I): 
cdef long i © 
if 1% 2 


for i in range(3, 


o 


return False 
INEL ** 05). + 
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if I % i == 0: return False 


return True 


In [42]: stimeit is_prime_cy2 (p1) 
87.6 ps + 27.7 ps per loop (mean + std. dev. of 7 runs, 
10000 loops each) 


In [43]: %time is_prime_nb (p2) 
CPU times: user 1.68 s, sys: 9.73 ms, total: 1.69 s 
Wall time: 1.7 s 

Out [43]: True 

In [44]: %time is_prime_cy2 (p2) 
CPU times: user 1.66 s, sys: 9.47 ms, total: 1.67 s 


Wall time: 1.68 s 


Out [44]: True 








© 变量 I 和 i 的 静态 类 型 声明 。 


4. 多 进程 

到 目前 为 止 ， 所 有 的 优化 工作 都 集中 在 代码 的 顺序 执行 上 。 特 别 是 对 于 质数 ， 可 能 需要 
同时 检查 多 个 数值 。 在 这 方面 , multiprocessing 模块 有 助 于 进一步 加 速 代码 执行 。 
你 可 以 用 它 产生 多 个 并 行 运行 的 Python 进程 。 对 于 简单 问题 ， 该 模块 的 应 用 很 直观 。 首 
先 , 将 mp .Pool 对 象 设置 为 多 进程 。 其 次 ,将 要 执行 的 函数 映射 到 所 要 检查 的 质数 上 : 


In [45]: import multiprocessing as mp 























In [46]: pool = mp.Pool (processes=4) © 
In [47]: %time pool.map(is_prime, 10 * [p1]) @ 
CPU times: user 1.52 ms, sys: 2.09 ms, total: 3.61 ms 
Wall time: 9.73 ms 
Out [47]: [True, True, True, True, True, True, True, True, True, True] 
In [48]: %time pool.map(is_prime_nb, 10 * [p2]) @ 
CPU times: user 13.9 ms, sys: 4.8 ms, total: 18.7 ms 
Wall time: 10.4 s 


Out[48]: [True, True, True, True, True, True, True, True, True, True] 


In [49]: %time pool.map(is_prime_cy2, 10 * [p2]) @ 
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CPU times: user 9.8 ms, sys: 3.22 ms, total: 13 ms 
Wall time: 9.51 s 





Out [49]: [True True, True, True, True, True, True, True, True, True] 


O 将 mp.Pool 对 象 实例 化 为 多 进程 。 
@ 对 应 的 函数 映射 到 包含 质数 的 列表 对 象 上 。 


加 速效 果 很 显著 ， Python 函数 is_prime () 对 于 较 大 的 质数 p2 需要 花费 20 多 秒 的 时 
间 。 在 4 个 进程 并 行 执行 时 ，is_prime_nb () 和 is_prime_cy2 () 函数 都 可 以 在 不 
到 10 秒 的 时 间 内 完成 10 倍 于 p2 的 质数 。 











并 行 处 理 

每 当 需 要 解决 多 个 相同 类 型 问题 时 ,就 应 该 考虑 并 行 处 理 。 如 果 拥 有 
具备 多 个 核心 及 充足 工作 内 存 的 强大 硬件 ， 效 果 可 能 非常 巨大 。 
multiprocessing 是 标准 库 中 的 一 个 易 用 模块 。 





10.2.2” 斐 波 那 契 数 

斐 波 那 契 数 (以 及 数列 ) 可 以 由 一 个 简单 算法 得 出 。 从 两 个 1 开始 , 第 3 个 数 (下 一 
个 斐 波 那 契 数 ) 是 前 两 个 数 的 和 : 1，1，2，3，5，8，13，21,，…。 本 节 会 分 析 该 数列 
的 两 种 不 同 实现 : 递归 算法 和 循环 (迭代 ) 算法 。 

递归 算法 

众所周知 ， 与 常规 的 Python 循环 类 似 ，Python 的 常规 递归 函数 实现 也 相对 较 慢 。 这 样 
的 函数 可 能 需要 多 次 调用 自身 ， 以 得 出 最 后 的 结果 。 下 面 的 fib_rec_py1 () 函数 就 
是 这 样 的 实现 。 在 本 例 中 ，Numba 完全 无 法 加 速 执 行 。 不 过 ，Cython 仅 依靠 静态 类 型 
声明 就 显著 加 快 了 执行 速度 


In [50]: def fib_rec_pyl(n): 
if n< 2: 





























return n 
else: 
return fib_rec_pyl(n - 1) + fib_rec_pyl(n - 2) 


In [51]: stime fib_ rec pyl (35) 
CPU times: user 6.55 s, sys: 29 ms, total: 6.58 s 
Wall time: 6.6 s 


Out [51]: 9227465 


In [52]: fib_rec_nb = numba. jit (fib_rec_pyl) 
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In [53]: time fib_rec_nb (35) 
CPU times: user 3.87 s, sys: 24.2 ms, total: 3.9 s 


Wall time: 3.91 s 
Out [53]: 9227465 


In [54]: %%cython 
def fib_rec_cy(int n): 
E T <2 
return n 


else: 
return fib_rec_cy(n - 1) + fib_rec_cy(n - 2) 


In [55]: %time fib_rec_cy (35) 
CPU times: user 751 ms, sys: 4.37 ms, total: 756 ms 


Wall time: 755 ms 


Out [55]: 9227465 
递归 算法 的 主要 问题 是 中 间 结 果 不 会 缓存 ， 而 是 重新 计算 。 为 了 避免 出 现 这 种 特有 的 
问题 ， 可 以 使 用 一 个 装饰 器 (decorator ) 来 负责 缓存 中 间 结 果 。 它 可 以 将 执行 速度 提高 
好 几 个 数量 级 : 








In [56]: from functools import lru_cache as cache 
In [57]: @cache(maxsize=None) © 
def fib_rec_py2(n): 
De AS Z 
return n 
else: 


return fib_rec_py2(n - 1) + fib_rec_py2(n - 2) 


In [58]: %time fib_rec_py2(35) @ 
CPU times: user 64 us, sys: 28 us, total: 92 hs 
Wall time: 98 us 


Out [58]: 9227465 

In [59]: %time fib_rec_py2(80) @ 
CPU times: user 38 us, sys: 8 ps, total: 46 hs 
Wall time: 51 us 


Out [59]: 23416728348467685 


O 缓存 中 间 结 果 。 
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@ 该 操作 带 来 极 大 的 加 速效 果 。 
2. 循环 ( 迭代 ) 算法 
虽然 计算 第 个 斐 波 那 契 数 的 算法 可 以 用 递归 方法 实现 ， 但 并 不 是 必须 这 么 做 。 接 下 
来 介绍 一 个 循环 (迭代 ) 实现 ， 即 便 以 纯 Python 编写 ， ae 
这 也 是 Numba 可 以 进一步 改善 性 能 的 领域 。 不 过 ，Cython 版 本 是 最 终 的 胜 者 : 
In [60]: def fib_it_py(n): 
x, y = 0, 1 
for iin range(1l, n + 1): 
X, Y=Y, XxXx+y 
return x 
In [61]: %time fib_it_py (80) 
CPU times: user 19 us, sys: le+03 ns, total: 20 hs 
Wall time: 26 us 
Out [61]: 23416728348467685 
In [62 fib_it_nb = numba. jit (fib_it_py) 
In [63]: $time fib_it_nb(80) 
CPU times: user 57 ms, sys: 6.9 ms, total: 63.9 ms 
Wall time: 62 ms 
Out [63]: 23416728348467685 
In [64]: %time fib_it_nb(80) 
CPU times: user 7 ws, sys: 1 us, total: 8 hs 
Wall time: 12.2 us 
Out [64]: 23416728348467685 
In [65]: %%cython 
def fib_it_cyl(int n): 
cdef long i 
cdef long x = 0, y= 1 
for iin range(1l, n + 1): 
X, Y =Y, X¥+y 
return x 
In [66]: %time fib_it_cy1 (80) 
CPU times: user 4 us, sys: le+03 ns, total: 5 us 
Wall time: 11 us 
Out [66]: 23416728348467685 
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既然 一 切 都 这 么 快 了 ， 你 可 能 会 感到 奇怪 ， 我 们 为 什么 只 计算 第 80 个 斐 波 那 契 数 ， 而 


不 是 更 后 面 的 (例如 ,第 150 个 ) 问题 出 





以 处 理 任意 大 的 数值 (参见 3.1 市 ), 但 纺 


[si 


虽然 


A 





在 可 用 的 数据 类 型 上 。 Python 本 质 上 可 




















丈 数据 类 型 ， 


In [67]: %%time 
fn fib_rec_py2 (150) 


print (fn) © 


0 


译 语言 通常 不 能 。 不 过 ，Cython 可 以 依靠 特 





得 到 比 64 位 双 精 度 浮 点 数 对 象 所 允许 的 更 大 的 数值 : 


9969216677189303386214405760200 


CPU times: 
Wall time: 


user 361 us, 
430 ps 
fn.bit_length() @ 
103 


fib_it_nb(150) ® 
print (fn) © 
6792540214324356296 
CPU times: 
Wall time: 
fn.bit_length () 


63 


user 270 us, 
297 hs 
(4) 


© 


= fib_it_cy1 (150) 
print (fn) © 

6792540214324356296 
CPU times: 


Wall time: 


user 255 us, 
279 hs 
fn.bit_length() © 
63 


sscython 

cdef extern from *: 
ctypedef int int128 
fib_it_cy2 (int n): 
cdef int128 i © 
cdef int128 x 
for i in range(1, 
YY 二 -YY 
return x 


def 


n 


X, x + y 


SStime 


sys: 115 ps, total: 476 hs 


sys: 78 us, total: 348 hs 


sys: 71 ps, total: 326 ys 


_int128_t' © 


0, y=190 


+) Vs 





278 $108 高 性 能 的 Python 


fn = fib_it_cy2(150) © 

print (fn) © 
9969216677189303386214405760200 

CPU times: user 280 us, sys: 115 us, 
Wall time: 328 us 


In [75]: fn.bit_length() © 
Out [75]: 103 


@ Python 版 本 快速 而 正确 。 

@ 结果 整数 的 位 数 为 103 (KF 64). 

© Numba 和 Cython 版 本 比较 快 ， 但 结果 不 正确 。 
O 由 于 64 位 整数 对 象 的 限制 ， 遇 到 了 洪 出 问题 。 
O 导入 特殊 的 128 位 整数 对 象 类 型 并 使 用 。 
© fib_it_cy2 () 的 Cython 版 本 现在 更 快 且 正确 。 


10.2.3 v 





























total: 395 us 


本 节 分 析 的 最 后 一 个 算法 是 基于 蒙特 卡 洛 模拟 的 天 值 求 取 算 法 。 基 本 思路 依据 这 样 的 事 











A 


K: 圆 面积 A 由 公式 4= rr 给 出 ,因此 = 二 。 对 于 半径 =1 的 单位 元 ，T=4。 这 个 


r 


算法 的 思路 是 模拟 随机 点 的 坐标 值 (zy) xy E [-1, 1]。 以 圆 点 为 中 心 、 边 长 为 2 的 
正方 形 的 面积 为 4。 以 圆 点 为 中 心 的 单位 圆 是 这 个 正方 形 区 域 的 一 部 分 ， 这 部 分 的 比例 








In [76]: import random 
import numpy as np 
from pylab import mpl, plt 
plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 


smatplotlib inline 


可 以 通过 蒙特 卡 洛 模拟 估算 : 为 正方 形 内 的 所 有 点 计数 ， 然 后 为 圆 内 的 点 计数 ， 最 后 
用 圆 内 点 计数 除 以 正方 形 内 点 计数 。 下 面 的 例子 展示 了 这 一 算法 (参见 图 10-1 ): 


In [77]: rn = [(random.random() * 2 - 1, random.random() * 2 - 1) 


for _ in range(500) ] 


In [78]: rn = np.array (rn) 
rn[:5] 
Out[78]: array([[ 0.45583018, -0.27676067], 




















1 例子 的 灵感 来 自 Code Review Stack Exchange 网 站 上 的 帖子 。 一 一 原 注 
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[-0.70120038, 0.15196888], 
[ 0.07224045, 0.90147321], 
[-0.17450337, -0.47660912], 
[ 0.94896746, -0.31511879]]) 


In [79]: fig = plt.figure(figsize=(7, 7)) 

ax = fig.add_subplot(1, 1, 1) 

circ = plt.Circle((0, 0), radius=1, edgecolor='g', lw=2.0, 
facecolor='None') © 

box = plt.Rectangle((-1, -1), 2, 2, edgecolor='b', alpha=0.3) @ 

ax.add_patch(circ) © 

ax.add_patch(box) @ 

plt-<plot(rn[s, OJ, rnis 1]7. te") © 

plt.ylim(-1.1, 1.1) 

plt.xlim(-1.1, 1.1) 


@ 绘制 单位 圆 。 
绘制 边 长 为 2 的 正方 形 。 
© 绘制 均匀 分 布 的 随机 点 。 





1.00 


0.75 


0.50 


0.25 


0.00 


-0.25 


-0.50 


-0.75 





-1.00 


-1.00 -0.75 -0.50 -0.25 0.00 0.25 050 0.75 1.00 
10-1 包含 均匀 分 布 随机 点 的 单位 圆 及 边 长 为 2 的 正方 形 
这 一 算法 的 NumPy 实现 相当 简洁 ， 但 也 是 内 存 密集 型 。 给 定 参 数 的 总 执行 时 间 大 约 














= 
= 
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HAR: 
In [80]: n = int (le7) 
In [81]: %time rn = np.random.random((n, 2)) * 2-1 


CPU times: user 450 ms, sys: 87.9 ms, total: 538 ms 
Wall time: 573 ms 


In [82]: rn.nbytes 
Out [82]: 160000000 


In [83]: %time distance = np.sqrt((rn ** 2).sum(axis=1)) © 
distance[:8] .round (3) 
CPU times: user 537 ms, sys: 198 ms, total: 736 ms 
Wall time: 651 ms 


Out [83]: array([1.181, 1.061, 0.669, 1.206, 0.799, 0.579, 0.694, 0.941]) 


In [84]: %time frac = (distance <= 1.0).sum() / len(distance) @ 
CPU times: user 47.9 ms, sys: 6.77 ms, total: 54.7 ms 
Wall time: 28 ms 


In [85]: pi_mcs = frac * 4 © 
pi_mcs © 
Out [85]: 3.1413396 


@ 点 与 原点 的 距离 〈 欧 几 里 得 范 数 )。 
@ 圆 内 点 数 与 所 有 点 数 的 比例 。 
© 这 个 比例 乘 以 正方 形 面积 4 就 是 圆 面积 的 估算 值 ， 即 站 值 。 


Python 函数 mcs_pi_py () 通过 一 个 for 循环 ， 以 高 效 利 用 内 存 的 方式 实现 了 蒙特 卡 
洛 模拟 。 注 意 , 随机 数 在 这 里 没有 做 比例 调整 。 执行 时 间 比 NumPy 版 本 长 , 本 例 中 Numba 
版 本 的 执行 速度 快 于 NumPy: 


In [86]: def mcs_pi_py(n): 





circle = 0 
for _ in range(n): 
x, y = random.random(), random.random() 
PE: CRE Qk yee Do Ob <= 1s 
circle += 1 


return (4 * circle) / n 


In [87]: %Stime mcs_pi_py(n) 
CPU times: user 5.47 s, sys: 23 ms, total: 5.49 s 
Wall time: 5.43 s 
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Out [87]: 3.1418964 


In [88]: mcs_pi_nb = numba. jit (mcs_pi_py) 


In [89]: %time mcs_pi_nb(n) 


CPU times: user 319 ms, sys: 6.36 ms, total: 326 ms 


Wall time: 326 ms 


Out [89]: 3.1422012 


In [90]: %time mcs_pi_nb(n) 


CPU times: user 284 ms, sys: 3.92 ms, total: 288 ms 


Wall time: 291 ms 


Out [90]: 3.142066 


仅 使 用 静态 类 型 声明 的 简单 Cython 版 本 比 Python 版 本 快 不 了 多 少 。 但 是 , 我 们 可 以 


次 依靠 C 的 随机 数 生成 能 力 来 进一步 加 速 计 算 : 


In [91]: %%cython -a 
import random 
def mcs_pi_cyl (int n): 
cdef int i, circle = 0 
cdef float x, y 
for i in range(n): 
x, y = random.random(), random.random() 
LED (eR 2 ety ER 2) OLS = Ta 
circle += 1 
return (4 * circle) /n 
Out [91]: <IPython.core.display.HTML object> 


In [92]: $time mcs_pi cyl (n) 


CPU times: user 1.15 s, sys: 8.24 ms, total: 1.16 s 


Wall time: 1.16 s 


Out [92]: 3.1417132 


In [93]: %%cython -a 
from libc.stdlib cimport rand 
cdef extern from 'limits.h': 
int INT_MAX 
def mcs_pi_cy2 (int n): 
cdef int i, circle = 0 


cdef float x, y 
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for i in range(n): 
x, Y= 
if (x-** 2°+-y 


rand () 
circle += 
return (4 * circle 
Out [93]: 
In [94]: $time mcs_pi_cy2 (n) 
CPU times: 
Wall time: 


user 170 ms 
172 ms 


Out [94]: 3.1419388 


算法 类 型 





种 简化 的 环境 下 讨论 。 


10.3 二叉树 














/ INT_MAX, rand() / INT_MAX 
xx 2) ** 0.5 <= 1: 

1: 

) /n 


<IPython.core.display.HTML object> 


, sys: 1.45 ms, total: 172 ms 

















本 节 分 析 的 算法 可 能 与 金融 算法 没有 直接 关联 。 不 过 ， 这 些 算 法 的 优 
点 在 于 简单 、 易 于 理解 。 此 外 ,金融 环境 下 的 典型 算法 问题 可 以 在 这 


二 项 式 期 权 定价 模型 是 一 种 流行 的 期 权 定 价 数值 方法 ， 是 由 Cox, Ross 和 Rubinstein 
率先 提出 的 。 这 种 方法 以 一 棵 ( 重组 ) 树 来 表示 某 种 资产 可 能 的 未 来 发 展 。 这 种 模型 
的 设置 和 Black-Scholes-Merton 的 设置 一 样 ， 有 风险 资产 (指数 或 者 股票 ) 以 及 无 风险 
时 间 通 常 被 分 为 等 距 的 子 间隔 Ar。 如 果 时 间 s 
的 指数 水 平 为 5,， 则 r= s+Af 时 的 指数 水 平 为 S= Sem, HP m Mu, dy PREDLA 











资产 〈 债券 )。 当 天 与 期 权 到 期 日 之 间 的 


(0<d<e™ <u=e" 





10.3.1 Python 
下 面 的 代码 是 一 个 Python 实现 ， 即 根据 
In [95]: import math 
In [96]: SO = 36. © 
T=1.0 0 
r= 0.06 © 
sigma = 0.2 @ 
In [97]: def simulate_tree(M): 
dt =T/M ® 
u = 
d=1/u@0 


























Ah » u=1/d Jo r 是 一 个 常数 一 一 无 风险 短期 利率 。 


固定 的 模型 数值 参数 来 创建 一 棵 重组 树 : 





math.exp (sigma * math.sqrt(dt)) © 
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283 


S = np.zeros((M +1, M + 1)) 
S[0, 0] = SO 
z= 1 
for t in range(1, M + 1): 
for i in range (z): 
Stip t eS E EET cw 
S[itl, t] = S[i, t-1] *d 
Z += 1 


return S 
风险 资产 初始 价值 。 
二 义 树 模拟 的 时 间 范 围 。 
恒定 的 短期 利率 。 
恒定 的 波动 率 因 数 。 
时 间 间 隔 。 
@ 向 上 和 向 下 运动 因数 。 


© © © © © 











与 典型 的 树 图 不 同 ， 向 上 运动 在 ndarray 对 象 中 表现 为 侧 向 运动 ， 这 显著 减 小 了 
ndarray 的 大 小 : 
In [98 np.set_printoptions (formatter={'float': 
lambda x: '%6.2f' % x}) 
In [99 simulate_tree(4) © 
Out [99 array([[ 36.00, 39.79, 43.97, 48.59, 53.71], 
[ 0.00, 32.57, 36.00, 39.79, 43.97], 
[ 0.00, 0.00, 29.47, 32.57, 36.00], 
[ 0.00, 0.00, 0.00, 26.67, 29.47], 
[ 0.00, 0.00, 0.00, 0.00, 24.13]]) 
In [100]: %time simulate_tree(500) @ 
CPU times: user 148 ms, sys: 4.49 ms, total: 152 ms 
Wall time: 154 ms 
Out[100]: array([[ 36.00, 36.32, 36.65, ..., 3095.69, 3123.50, 3151.57], 
[ 0.00, 35.68, 36.00, ..., 3040.81, 3068.13, 3095.69], 
[ 0.00, 0.00, 35.36, ..., 2986.89, 3013.73, 3040.81], 
PR 
[ 0.00, 0.00, 0.00, ..., 0.42, 0.42, 0.43], 
[ 0.00, 0.00, 0.00, ..., 0.00, 0.41, 0.42], 
[ 0.00, 0.00, 0.00, ..., 0.00, 0.00, 0.41]]) 
@4 个 时 间 间 隔 的 树 。 
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@ 500 个 时 间 间 隔 的 树 。 


10.3.2 NumPy 
利用 一 些 技巧 ， 上 述 二 又 树 可 月 











In [101]: M= 4 


In [102]: up = 


H NumPy 全 向 量化 代码 创建 : 


np.arange(M + 1) 


up = np.resize(up, (M+ 1, M+ 1)) © 
up 
Out[102]: array([[0, 1, 2, 3, 4], 
(Oye Se By aly 
[Oy ty 2, 3y Aly 
[Oy Ly 27. 3y 4z 
[0, 1, 2, 3, 4]]) 
In [103]: down = up.T * 2 @ 
down 
Out[103]: array([[0, 0, 0, 0, O], 
2y Ze 2r 2p 217 
4, 4, 4, 4, 4], 
6, 6, 6, 6, 6], 
8, 8, 8, 8, 8]]) 
In [104]: up - down ® 
Out [104]: array([[ 0, 1, 2, 3, 4], 
=F HL On Ti Zliy 
Hg “By roy sly Oly 
ry Sane S213 
-8, -7, -6, -5, -4]]) 





In [105]: dt =T/M 








In [106]: SO * np.exp(sigma * math.sqrt(dt) * (up - down)) @ 
Out[106]: array([[ 36.00, 39.79, 43.97, 48.59, 53.71], 
[ 29.47, 32.57, 36.00, 39.79, 43.97], 
[ 24.13, 26.67, 29.47, 32.57, 36.00], 
[ 19.76, 21.84, 24.13, 26.67, 29.47], 
[ 16.18, 17.88, 19.76, 21.84, 24.13]]) 
@ 包含 总 向 上 运动 的 ndarray 对 象 。 
@ 包含 总 向 下 运动 的 ndqarray 对 象 。 
© 包含 净 向 上 CE) 和 向 下 运动 的 ndarray WR. 
© 4 个 时 间 间 隔 的 树 〈 值 的 右上 方 三 角形 )。 
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在 NumPy 中 ， 代 码 略 微 紧 凑 一 些 。 但 更 重要 的 是 ，NumPy 向 量化 实现 了 一 个 数量 级 的 
加 速 且 没有 使 用 更 多 内 存 : 
In [107]: def simulate_tree_np(M): 
dt =T/M 
up = np.arange(M + 1) 
up = np.resize(up, (M+ 1, M + 1)) 
down = up.transpose() * 2 
S = SO * np.exp(sigma * math.sqrt(dt) * (up - down) ) 
return S 
In [108]: simulate_tree_np (4) 
Out[108]: array([[ 36.00, 39.79, 43.97, 48.59, 53.71], 
[ 29.47, 32.57, 36.00, 39.79, -43.97], 
[ 24.13, 26.67, 29.47, 32.57, 36.00], 
[ 19.76, 21.84, 24.13, 26.67, 29.47], 
[ 16.18, 17.88, 19.76, 21.84, 24.13]]) 
In [109]: %Stime simulate_tree_np (500) 
CPU times: user 8.72 ms, sys: 7.07 ms, total: 15.8 ms 
Wall time: 12.9 ms 
Out [109]: array([[ 36.00, 36.32, 36.65, ar 3095369, 3123:50, 3151.57], 
35.36, 35.68, 36.00, -, 3040.81, 3068.13, 3095.69], 
34.137 39:05; 35-36; -, 2986.89, 3013.73, 3040.81], 
tasty 
0.00, 0.00, 0.00, -, 0.42, 0.42, 0.43], 
0.00, 0.00, 0.00, -, 0.41, 0.41, 0.42], 
0.00, 0.00, 0.00, -, 0.40, 0.41, 0.41]]) 
10.3.3 Numba 
这 种 金融 算法 应 该 很 适合 于 通过 Numba 动态 编译 来 优化 。 确 实 , 可 以 观察 到 比 NumPy 
版 本 有 一 个 数量 级 的 加 速 。 这 样 ，Numba 版 本 比 Python ( 或 者 混合 ) 版 本 要 快 上 好 几 
个 数量 级 : 
In [110]: simulate_tree_nb = numba. jit (simulate_tree) 
In [ ]: simulate_tree_nb (4) 
Out[111]: array([[ 36.00, 39.79, 43.97, 48.59, 53.71], 
[ 0.00, 32.57, 36.00, 39.79, 43.97], 
[ 0.00, 0.00, 29.47, 32.57, 36.00], 
[ 0.00, 0.00, 0.00, 26.67, 29.47], 
[ 0.00, 0.00, 0.00, 0.00, 24.13]]) 
In [112]: %Stime simulate_tree_nb (500) 
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193 ps, total: 618 hs 
, 3095.69, 3123.50, 3151. 
, 3040.81, 3068.13, 3095. 
, 2986.89, 3013.73, 3040. 
7 0.42, 0.42, 0 
7 0.00, 0.41, 0 
i 0.00, 0.00, (Ox 


CPU times: user 425 us, sys: 
Wall time: 625 us 
Out [112]: array([[ 36.00, 36.32, 36.65, 
0.00, 35.68, 36.00, 
0.00, 0.00, 35.36, 
or 
0.00, 0.00, 0.00, 
0.00, 0.00, 0.00, 
0.00, 0.00, 0.00, 
In [113]: %timeit simulate_tree_nb (500) 


559 ps + 46.1 hs per loop (mean + std. dev. 


loops each) 


10.3.4 Cython 


of 7 runs, 


57 
69 
81 


.43 
.42 


41 





1000 


和 前 面 一 样 ，Cython 需要 对 代码 进行 更 多 的 调整 ， 才 能 看 到 显著 的 改进 。 以 下 版 本 主 
要 使 用 静态 类 型 声明 ， 并 导入 了 一 些 额 外 的 功能 模块 。 与 常规 的 Python 导入 及 函数 相 


比 ， 这 些 模块 的 性 能 有 所 改善 : 


In [114]: %%cython -a 


import numpy as np 
cimport cython 

from libc.math cimport exp, 
cdef float SO = 36. 

cdef float T = 1.0 

cdef float 0.06 


cdef sigma = 


yus 





float 0.2 


def simulate_tree_cy(int M): 


cdef 
cdef 
cdef 


J 
float dt, u, d 
float[:, :] S = 





T/M 


d= 
S[0， 
z = 1 

for t in range (1, 


1/u 


0] = S0 


for i in range (z): 
S[i, t] = S[i, 
S[i+1, t] = 
zt+= 1 
return np.array(S) 
Out [114]: 


np. 


S{fi, 


sqrt 


zeros((M +1, M+ 1), 


dtype=np.float32) © 


exp(sigma * sqrt (dt) ) 


M+ 1): 


aT] A 


eH 1) * ad 


<IPython.core.display.HTML object> 
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O 将 ndarray 对 象 声 明 为 C 数组 ， 这 对 性 能 至 关 重 要 。 
与 Numba 版 本 相 比 ，Cython 版 本 将 执行 时 间 又 缩短 了 30%: 


In [115]: simulate_tree_cy (4) 

Out[115]: array([[ 36.00, 39.79, 43.97, 48.59, 53.71] 
0::00:,. 32:57, 36.00, 39797. 43.97] 
0.00, 0.00, 29.47, 32.57, 36.00], 
0.00, 0.00, 0.00, 26.67, 29.47] 
0.00, 0.00, 0.00, 0.00, 24.13] 








[ 
[ 
[ 
[ 


uw Ss 


, Atype=float32) 


In [116]: %Stime simulate_tree_cy (500) 
CPU times: user 2.21 ms, sys: 1.89 ms, total: 4.1 ms 
Wall time: 2.45 ms 


Out[116]: array([[ 36.00, 36.32, 36.65, ..., 3095.77, 3123.59, 3151.65], 
0.00, 35.68, 36.00, ..., 3040.89, 3068.21, 3095.77], 
0.00, 0.00, 35.36, ..., 2986.97, 3013.81, 3040.89], 


È 


0.00, 0.00, 0.00, 
0.00, 0.00, 0.00, 
0.00, 0.00, 0.00, 

dtype=float32) 
In [117]: %timeit S = simulate_tree_cy (500) 


.42, 0.42, 0.43], 
.00, 0.41, 0.42], 
.00, 0.00, 0.41]], 


~ 





~ 
oO °° 


~ 


363 ps + 29.5 ps per loop (mean + std. dev. of 7 runs, 1000 


loops each) 


10.4 ”蒙特 卡 洛 模拟 


蒙特 卡 洛 模拟 是 计算 金融 学 中 不 可 或 缺 的 数值 工具 , 在 现代 计算 机 出 现 之 前 就 已 经 投入 使 
用 。 银行 和 其 他 金融 机 构 将 其 用 于 定价 和 风险 管理 , 这 种 方法 可 能 是 金融 学 中 最 为 灵活 和 
强大 的 数值 方法 之 一 。 不 过 ， 它 也 往往 是 计算 要 求 最 高 的 。 因 此 ，Python 长 期 被 排除 在 
实现 基于 蒙特 卡 洛 模拟 算法 的 合适 编程 语言 之 外 一 一 至 少 在 现实 应 用 场景 里 是 这 样 。 
本 节 分 析 几 何 布朗 运动 的 蒙特 卡 洛 模拟 ， 这 是 一 种 简单 但 广泛 应 用 的 随机 过 程 ， 用 于 
建立 股价 或 者 指数 水 平 演变 的 模型 。Black-Scholes-Merton 期 权 定 价 理论 ( 1973 ) 借鉴 
了 这 一 过 程 。 在 这 种 设置 下 ， 所 要 估 值 的 期 权 标的 遵循 随机 微分 方程 式 (SDE), 40 
公式 10-1 所 示 。5, 是 时 间 1 的 标的 价值 ; r 是 一 个 常数 一 一 无 风险 短期 利率 ; o 是 恒定 
瞬时 波动 率 ; Z, 是 布朗 运动 。 


公式 10-1 Black-Scholes-Merton SDE ( 几何 布朗 运动 ) 








































































































dS,=rS,dt+oS,dZ, 





288 $10 高 性 能 的 Python 


这 个 SDE 可 以 在 等 距 时 间 间 隔 上 离散 化 ， 并 根据 公式 10-2 模拟 ， 公 式 10-2 以 欧 拉 格 
RRR HP, z 是 标准 正 态 分 布 随机 数 。 对 于 M 个 时 间 间 隔 , 其 长 度 胡 示 为 A= 志 ， 
其 中 了 为 模拟 的 时 间 范 围 〈 例 如 ， 所 要 估 值 的 期 权 到 期 日 )。 

公式 10-2 Black-Scholes-Merton 差分 方程 ( 欧 拉 格式 ) 


2 
S, =S a sl 三 z) At + onli: 











欧式 看 涨 期 权 的 蒙特 卡 洛 估算 函数 在 公式 10-3 中 给 出 ， 其 中 $7Q) 是 到 期 日 了 时 第 i 个 
标的 的 模拟 价值 ， 模 拟 路 径 总 数 为 7 (i=1,2，…,， 7)。 


公式 10-3 欧式 看 涨 期 权 的 蒙特 卡 洛 估算 函数 


1 
C,=e"7 也 max(Sr (i) — K,0) 
I 


10.4.1 Python 
首先 是 按照 公式 10-2 实现 蒙特 卡 洛 模拟 的 Python (或 者 混合 ) 版 本 一 一 mcs_simulation_ 
py () 。 之 所 以 说 它 是 个 混合 版 本 ， 是 因为 在 ndarray 对 象 上 执行 Python 循环 。 前 面 
已 经 看 到 ， 这 可 能 为 Numba 动态 编译 打下 很 好 的 基础 。 和 往常 一 样 ， 将 这 个 函数 的 执 
行 时 间作 为 基准 。 根 据 模拟 来 估算 欧洲 看 跌 期 权 的 价值 : 
In [118]: M= 100 © 
I = 50000 @ 









































1 


In [119]: def mcs_simulation_py(p): 


M, I=p 

dt =T/M 

S = np.zeros((M + 1, I)) 
S[0] = SO 


rn = np.random.standard_normal(S.shape) ® 
for t in range(1, M+ 1): © 
for i in range(I): @ 
S[t, i] = S[t-1, i] * math.exp((r - sigma xx 2 / 
2) * dt + sigma * math.sqrt(dt) * rn[t, i]) © 


return S 
In [120]: %Stime S = mcs_simulation_py((M, I)) 
CPU times: user 5.55 s, sys: 52.9 ms, total: 5.6 s 


Wall time: 5.62 s 


In [121]: S[-1].mean() © 
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Out[121]: 38.22291254503985 


In [122]: SO * math.exp(r * T)® 
Out [122]: 38.22611567563295 


In [123]: K = 40. @ 


In [124]: CO = math.exp(-r * T) * np.maximum(K - S[-1], 0) .mean() © 








In [125]: CO # © 
Out [125]: 3.860545188088036 


@ 离散 化 的 时 间 间 隔 数量 。 

@ 模拟 的 路 径 数量 。 

© 用 单一 向 量化 步 又 提取 的 随机 数 。 

O 实现 基于 欧 拉 格式 模拟 的 府 套 循环 。 

O 根据 模拟 算出 的 期 末 价 值 均值 。 

@ 理论 预期 期 未 价值 。 

@ 欧洲 看 跌 期 权 行 权 价 。 

O 蒙特 卡 治 期 权 估 值 函数 。 

图 10-2 展示 了 模拟 期 未 ( 欧洲 看 跌 期 权 到 期 日 ) 模拟 价值 的 直方 图 。 
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图 10-2 模拟 期 末 价 值 的 频率 分 布 
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10.4.2 NumPy 
NumPy 版 本 的 mcs_simulation_np() 没 有 太 多 的 不 同 , 它 仍 然 有 一 个 Python 循环 ， 
时 间 间 隔 是 循环 的 一 次 执行 。 其 他 方面 由 所 有 路 径 上 的 向 量化 代码 处 理 。 它 的 速度 比 
第 一 个 版 本 大 约 快 20 倍 : 





In [127] : 


In [128]: 


In [129 
Out [129 


In [130 





def mcs_simulation_np(p): 


M, I=p 

dt =T/M 

S = np.zeros((M + 1, I)) 
s[0] = S0 


rn = np.random.standard_normal (S.shape) 
for t in range(1, M+ 1): © 


S[t] = S[t-1] * np.exp((r - sigma ** 2 / 2) * dt + 
sigma * math.sqrt (dt) * rn[t]) 


return S 


Stime S = mcs_simulation_np((M, I)) 
CPU times: user 252 ms, sys: 32.9 ms, total: 
Wall time: 252 ms 


: S[-1].mean () 
38.235136032258595 


Stimeit S = mcs_simulation_np((M, I)) 
202 ms + 27.7 ms per loop (mean + std. dev. of 7 runs, 


@ 在 时 间 间 隔 上 循环 。 





@ 这 个 欧 拉 格 式 用 向 量化 的 NumPy 代码 一 次 性 处 理 所 有 路 径 。 


10.4.3 Numba 
Numba 经 常用 于 这 类 算法 以 取得 显著 的 性 能 改善 , 这 应 该 已 经 不 再 是 令 人 惊讶 的 事 了 。 
Numba 版 本 的 mcs_simulation_nb () 略 快 于 NumPy 版 本 : 


in [ISLS 


Tn- [1432]; 


In; [133 )% 


In [134]: 


stime S = mcs_simulation_nb((M, I)) © 
CPU times: user 673 ms, sys: 36.7 ms, total: 
Wall time: 764 ms 


stime S = mcs_simulation_nb((M, I)) @ 
CPU times: user 239 ms, sys: 20.8 ms, total: 


Wall time: 265 ms 


S[-1] .mean () 


285 ms 


mcs_simulation_nb = numba. jit (mcs_simulation_py) 


709 ms 


259 ms 


© 


1 loop each) 
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Out [134 38 .22350694016539 

In [135 CO = math.exp(-r * T) * np.maximum(K - S[-1], 
In [136 co 

Out [136 3.8303077438193833 

In 137 Stimeit S = mcs_simulation_nb((M, I))@ 


248 ms + 20.6 ms per loop (mean + 
@ 第 一 次 调用 有 编译 开销 。 
@ 第 二 次 调用 没有 开销 。 
10.4.4 Cython 














0) .mean () 


std. dev. of 7 runs, 1 loop each) 


Cython 同样 不 出 意料 地 需要 花费 更 多 精力 ， 才 能 得 到 加 速 的 效果 。 不 过 ， 加 速 并 不 明 
显 。Cython 版 本 的 mcs_simulation_cy () 其 至 稍微 慢 于 NumPy 和 Numba 版 本 。 由 





于 其 他 因素 ， 将 模拟 结果 转换 为 ndarray 对 象 需要 一 些 时 间 : 


In [138]: %%cython 

import numpy as np 
cimport numpy as np 
cimport cython 

from 
cdef 


cdef 


libc.math cimport exp, 
float SO = 36. 

float T = 1.0 

cdef float r = 0.06 

cdef float sigma = 0.2 
@cython.boundscheck (False) 


sqrt 


@cython.wraparound (False) 
def mcs_simulation_cy(p): 
cdef int M, I 
M, I=p 
cdef 
cdef 


Ine By i 
float dt = T 
cdef double[:, | 
cdef double[:, :] 
S[0] = S0 

for t in range (1, 


= np.zeros((M + 1, 


M + 1): 


for i in range (I): 


I)) 
np.random.standard_normal((M + 1, 


I)) 


S[t, i] = S[t-1, i] * exp((r - sigma ** 2 / 2) * dt + 
sigma * sqrt (dt) * rn[t, il) 


return np.array(S) 


In [139]: %time S = 
CPU times: 


Wall time: 


mcs_simulation_cy((M, I)) 


user 237 ms, 65.2 ms, total: 


271 ms 


sys: 


302 ms 
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In [140]: S[-1].mean() 
Out [140]: 38.241735841791574 


In [141]: %timeit S = mcs_simulation_cy((M, I)) 
221 ms + 9.26 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


10.4.5 ”多 进程 
蒙特 卡 洛 模拟 是 很 适合 并 行 化 的 任务 。 例 如 ， 方 法 之 一 是 将 10 万 条 路 径 的 模拟 分 为 10 
个 并 行 的 进程 ， 每 个 进程 模拟 1 万 条 路 径 。 另 一 种 方法 是 将 10 万 条 路 径 的 模拟 分 在 多 
个 进程 中 , 每 个 进程 模拟 不 同 的 金融 工具 。 前 者 按照 固定 数量 进程 来 并 行 模拟 大 量 路 
径 。 下文 的 代码 再 次 使 用 multiprocessing 模块 。 它 将 全 部 模拟 路 径 (7 ) SNR 
(p>0 )。 所 有 单独 任务 完成 后 ， 结 果 通 过 np .hstack () 集 中 到 一 个 ndarray WA. X 
种 方法 可 应 用 于 前 面 介绍 的 任何 一 个 版 本 。 

对 这 里 选择 的 参数 ， 并 行 方 法 没有 观察 到 任何 加 速效 果 : 


In [142]: import multiprocessing as mp 




































































In [143]: pool = mp.Pool (processes=4) © 


In [144]: p = 20 @ 














In [145]: %Stimeit S = np.hstack(pool.map(mcs_simulation_np, 
p * [(M, int(I / p))])) 
288 ms + 10.2 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


In [146]: %Stimeit S = np.hstack(pool.map(mcs_simulation_nb, 
p * [(M, int(I / p))])) 
258 ms + 8.69 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


In [147]: %Stimeit S = np.hstack(pool.map(mcs_simulation_cy, 
p * [(M, int(I / p))])) 
274 ms + 11.9 ms per loop (mean + std. dev. of 7 runs, 1 loop each) 


@ 用 于 并 行 化 的 Pool 对 象 。 
@ 模拟 分 块 的 数量 。 


多 进程 策略 

在 金融 业务 中 ， 有 许多 算法 适用 于 并 行 化 。 其 中 一 些 算法 甚至 可 以 应 
用 不 同 的 代码 并 行 化 策略 。 和 蒙特 卡 洛 模拟 就 是 一 个 很 好 的 例子 ， 不 管 
在 单一 机 器 或 者 多 台 机 器 上 ， 都 很 容易 并 行 执 行 多 次 模拟 。 这 种 算法 
本 身 还 可 以 将 单一 模拟 分 布 到 多 个 进程 上 。 
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10.5 pandas 递归 算法 


本 节 介 绍 一 个 在 金融 分 析 中 很 重要 的 特殊 主题 : 在 pandas 的 DataFrame 对 象 中 存储 
的 金融 时 间 序 列 上 实现 递归 函数 。 虽 然 pandas 可 以 在 DataFrame 对 象 上 实现 复杂 的 
向 量化 操作 ， 但 某 些 递归 算法 很 难 或 者 无 法 向 量化 ， 金 融 分 析 人 员 不 得 不 在 


DataFrame 对 象 上 执行 缓慢 的 Python 循环 。 下 面 的 例子 以 简单 的 形式 实现 了 所 谓 的 
指数 加 权 移 动 平均 数 (EWMA )。 


金融 时 间 序 列 9 ,上 E{0, =+, TEJ EWMA 由 公式 10-4 给 出 。 
公式 10-4 ”指数 加 权 移 动 平 均 数 (EWMA ) 
EWMA, = So 














EWMA,=a+ S,+ (1-a) + EWMA,-),t © {1, =, T} 
虽然 性 质 很 简单 ， 也 很 容易 实现 ， 但 这 样 的 算法 可 能 造成 执行 代码 的 速度 相当 慢 。 


10.5.1 Python 

首先 考虑 Python 版 本 ， 循 环 读 取 包 含 单一 金融 工具 时 间 序 列 数据 的 DataFrame 对 象 
的 DatetimeIndex (参见 第 8 章 )。 图 10-3 展示 了 这 一 金融 时 间 序 列 和 EWMA 金融 
序列 的 图 表 : 


In [148]: import pandas as pd 











In [149]: sym = 'SPY' 


In [150]: data = pd.DataFrame (pd. read_csv('../../source/tr_eikon_eod_data.csv', 
index_col=0, parse_dates=True) [sym] ) 
. dropna () 

In [151]: alpha = 0.25 


In [152]: data['EWMA'] = data[sym] © 








In [153]: %%time 
for t in zip(data.index, data.index[1:]): 
data.loc[t[1], 'EWMA'] = (alpha * data.loc[t[1], sym] + 
(1 - alpha) * data.loc[t[0], 
'EWMA']) @ 


CPU times: user 588 ms, sys: 16.4 ms, total: 605 ms 
Wall time: 591 ms 


In [154]: data.head() 
Out [154]: SPY EWMA 
Date 
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2010-01-04 113.33 113.330000 
2010-01-05 113.63 113.405000 
2010-01-06 113.71 113.481250 
2010-01-07 114.19 113.658438 
2010-01-08 114.57 113.886328 


In [155]: data[data.index > '2017-1-1'].plot(figsize=(10, 6)); 


O 初始 化 EWMA FI] 
@ 以 Python 循环 为 基础 ， 实 现 上 述 算法 。 
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270 
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250 


240 
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10-3 EWMA 的 金融 时 间 序 列 


现在 考虑 更 为 通用 的 Python 函数 ewma_py () 。 该 函数 可 以 直接 应 用 于 ndarray 对 象 
形式 的 金融 时 间 序 列 数据 中 的 某 列 或 者 某 行 上 : 


In [156]: def ewma_py(x, alpha): 
y = np.zeros_like (x) 
y[0] = x[0] 
for iin range(1, len(x)): 
y[i] = alpha * x[i] + (l-alpha) * y[i-1] 


return y 


In [157]: %time data['EWMA_PY'] = ewma_py(data[sym], alpha) © 
CPU times: user 33.1 ms, sys: 1.22 ms, total: 34.3 ms 
Wall time: 33.9 ms 
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In [158]: %time data['EWMA_PY'] = ewma_py(data[sym].values, alpha) @ 
CPU times: user 1.61 ms, sys: 44 ps, total: 1.65 ms 
Wall time: 1.62 ms 
@ 将 函数 直接 应 用 到 Series 对 象 ( 列 )。 
O 将 函数 应 用 到 包含 行 数据 的 ndarray WR. 
这 种 方法 已 经 显著 加 速 了 代码 执行 一 一 大 约 20 到 100 倍 。 





10.5.2 Numba 


这 个 算法 的 基本 结构 有 希望 在 应 用 Numba 时 进一步 加 速 
了 一 个 数量 级 : 


numba. jit (ewma_py) 


数 应 用 到 ndarray 数据 时 ， 再 次 加 速 


In [159]: ewma_nb = 


In [160]: %time data['EWMA_NB' 
CPU times: 


Wall time: 


] = 
user 269 ms, 
294 ms 


[161]: "EWMA_NB" ] 





Stimeit data[ 
30.9 ms + 
loops each) 


[162]: 
CPU times: 
Wall time: 97.6 ms 


[163]: %stimeit data['EWMA_NB"] 


134 ps + 12.5 
loops each) 


函数 直接 应 用 Series 对 象 ( 列 )。 
@ 将 函数 应 用 到 包含 


10.5.3 Cython 








Cython 版 本 的 ewma_cy () 也 实现 了 可 观 的 速 


In [164]: %%cython 
import numpy as np 


cimport cython 


1.21 ms per loop 


Stime data['EWMA_NB'] = 
user 94.1 ms, 


us per loop 


。 确 实 如 此 ， 当 ewma_nb () K 





alpha) © 
280 ms 


ewma_nb(data[sym], 


sys: 11.4 ms, total: 


0 


of 7 runs, 


= ewma_nb(data[sym], 
std. dev. 


alpha) 


(mean + 10 


e 


ewma_nb (data[sym] 
3.78 ms, total: 


-values, alpha) 


sys: 97.9 ms 


= ewma_nb(data[sym].values, alpha) @ 


(mean + std. dev. of 7 runs, 10000 


行 数据 的 ndarray WR. 


, (AAR Numba 版 本 那么 快 : 


@cython.boundscheck (False) 


@cython.wraparound (False) 


def ewma_cy(double[:] 
cdef int i 


X, 


float alpha): 
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In [165]: 


In [166]: 


cdef double[:] y = np.empty_like (x) 
y[0] = x[0] 
for i in range(1l, len(x)): 
y[i] = alpha * x[i] + (1 - alpha) * y[i - 1] 
return y 





Stime data['EWMA_CY'] = ewma_cy(data[sym].values, alpha) 
CPU times: user 2.98 ms, sys: 1.41 ms, total: 4.4 ms 
Wall time: 5.96 ms 


Stimeit data['EWMA_CY'] = ewma_cy(data[sym].values, alpha) 
1.29 ms + 194 hs per loop (mean + std. dev. of 7 runs, 1000 
loops each) 








最 后 这 个 例子 再 次 说 明 ，( 非 标准 ) 算法 的 实现 通常 有 多 种 选择 。 所 有 选择 可 以 得 出 
完全 相同 的 结果 ， 但 性 能 特性 上 有 很 大 的 差别 。 本 例 的 执行 时 间 从 0.1ms 到 500ms 
不 等 相差 5000 倍 。 
































最 好 和 最 优 

将 算法 翻译 成 Python 编程 语言 通常 很 容易 。 但 是 ， 由 于 性 能 上 有 很 
多 种 选择 ， 所 以 算法 的 实现 形式 也 很 容易 造成 执行 缓慢 。 对 于 交互 式 
金融 分 析 来 说 ， 最 优 的 解决 方案 (也 就 是 可 以 达到 目的 ， 但 可 能 不 是 
最 快 、 也 不 是 内 存 效率 最 高 的 ) 可 能 就 足够 了 。 对 于 生产 型 金融 引用 ， 
应 该 坚持 实现 最 好 的 解决 方案 , 即使 需要 一 些 研究 和 正式 基准 测试 都 
在 所 不 惜 。 


10.6 ”结语 
Python 生态 系统 提供 了 多 种 改善 代码 性 能 的 手段 。 


MEF EE 





在 给 定 问题 上 ， 某 些 Python 风格 和 范 型 比 其 他 的 性 能 更 好 ; 例如 ， 在 许多 情况 下 ， 
向 量化 范 型 不 仅 得 到 更 简洁 的 代码 ， 也 能 得 到 更 高 的 速度 ( 有 时 候 以 更 大 内 存 占 
用 为 代价 ) 。 

















Python 有 用 于 不 同类 型 问题 的 大 量 库 ,使 用 适合 于 问题 的 库 往往 能 得 到 性 能 
好 的 解决 方案 ; NumPy 的 ndarray 类 和 pandas 的 DataFrame 类 就 是 很 好 的 


例子 。 
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BE 
有 一 些 强大 的 编译 解决 方案 能 够 加 块 金融 算法 的 速度 ， 如 静态 ( 如 Cython ) 和 动 
态 (例如 Numba ) 方案 。 


Z pe 


HITTE 
有 些 Python JÆ (如 multiprocessing ) 可 以 轻松 地 并 行 化 执行 Python 代码 ; 本 章 的 
例子 只 使 用 了 单一 机 器 上 的 并 行 化 ,但 Python 生态 系统 还 提供 了 多 机 器 (群集 ) 
并 行 化 的 技术 。 
章 介绍 的 高 性 能 方法 的 优点 之 一 是 : 所 有 方法 通常 都 很 容易 实现 ， 而 且 需 要 的 额外 
力 通常 很 少 。 换 言 之 ， 在 有 这 么 多 高 性 能 库 的 今天 ， 人 性 能 的 改善 是 唾 手 可 得 的 。 





















































本 
精 


10.7 ”延伸 阅读 

本 章 介 绍 的 所 有 高 性 能 库 ， 都 有 宝贵 的 在 线 资源 : 

。 ”Cython 库 及 编译 需 项 目的 主页 ; 

e multiprocessing 模块 文档 可 以 在 Python 官方 文档 上 找到 ; 

。 关于 Numba 的 信息 可 以 在 GitHub numba 页 面 和 Numba 官网 上 找到 。 











参考 书 如 下 : 
e Gorelick, Misha, and Ian Ozsvald (2014). High Performance Python. Sebastopol, CA: 
O’Reilly. 


e Smith, Kurt (2015). Cython. Sebastopol, CA: O’Reilly. 
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数学 家 是 现代 化 世界 的 “主人 ”。 

一 一 比尔 . 盖 德 
从 20 世纪 80 年 代 和 90 年 代 华尔街 出 现 所 谓 的 “火箭 科学 家 ”以 来 ， 金融 学 已 经 发 展 成 为 
一 种 应 用 数学 学 科 。 虽 然 早期 金融 学 研究 论文 中 出 现 的 数学 表达 式 和 公式 不 多 ， 但 是 这 些 


表达 式 和 公式 已 经 成 为 当今 金融 学 论文 的 主要 组 成 部 分 ， 其 他 部 分 则 是 解释 它们 的 文字 。 
本 章 介绍 对 金融 学 有 用 的 一 些 数学 工具 ， 但 是 对 每 种 工具 的 背景 不 做 详细 的 介绍 。 这 






























































个 主题 有 许多 实用 的 图 书 ， 因 此 ， 本 章 的 焦点 是 如 何在 Python 中 使 用 这 些 工 具 和 技术 。 
这 些 工具 如 下 所 示 。 
tL 7S 
回归 和 插值 是 金融 学 中 最 常用 的 数学 技术 之 一 。 
BEE 








一 些 金融 学 科 需 要 凸 优化 工具 〈 例 如 ， 衍 生 品 定价 模型 检验 ) 。 





BY 
金融 (衍生 品 ) 资产 的 估 值 往往 归结 为 积分 计算 。 
HFRF 























Python 提供 SymPy. SymPy 是 一 种 强大 的 符号 数学 工具 , 例如 , 它 可 以 解 方程 (组 )。 


11.1 逼近 法 
首先 ， 是 通常 的 导入 工作 ; 
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In [1]: import numpy as np 
from pylab import plt, mpl 


In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 


smatplotlib inline 


本 节 使 用 的 主 函 数 示 例如 下 ， 由 一 个 三 角 函 数 项 和 一 个 线性 项 组 成 : 


In [3]: def E(x): 
return np.sin(x) + 0.5 * x 


重点 是 在 给 定 区 间 内 通过 回归 和 插值 求 取 该 函数 的 近似 值 。 首先 , 生成 该 函数 的 图 形 ， 
以 便 更 好 地 观察 逼近 法 的 效果 。 我 们 感 兴趣 的 区 间 是 [-2 关 ，27]。 图 11-1 显示 了 该 
函数 在 np.linspace () 函数 定义 的 固定 区 间 上 的 图 像 。create_plot () 是 一 个 助手 
函数 ， 可 以 创建 本 章 多 次 要 使 用 的 同类 图表: 



































f(x) 








图 11-1 示例 函数 图 表 


In [4]: def create plot (x, y, styles, labels, axlabels): 
plt.figure (figsize=(10, 6)) 
for i in range(len(x)): 
plt.plot(x[i], y[i], styles[i], label=labels[i]) 
plt.xlabel (axlabels[0]) 
plt.ylabel (axlabels[1]) 
plt.legend(loc=0) 
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In [5]: x = np.linspace(-2 * np.pi, 2 * np.pi, 50) © 
In [6]: create_plot([x], [f(x)], ['b'], ['f(x)'], ['x', 'f(x)']) 


@ 用 于 绘图 和 计算 的 x 值 。 


11.1.1 回归 

回归 是 相当 高 效 的 函数 近似 值 计 算 工 具 。 它 不 仅 适 用 于 求 取 一 维 函 数 的 近似 值 ， 在 更 
高 维度 上 也 很 有 效 。 得 出 回归 结果 所 需要 的 数值 化 方法 很 容易 实现 ， 执 行 也 很 快速 。 
本 质 上 ， 回 归 的 任务 是 在 给 定 一 组 所 谓 “ 基 函数 ”by，dE {1，…, DD} 的 情况 下 ,根据 
公式 11-1 找 出 最 优 参数 w ，…，wp ， 其 中 对 于 jiE {1,…, 了 1} 观 察 点 ,yj 三 fx)。 x; P 
为 自 变 量 观测 值 ，y; 可 视 为 因 变量 观测 值 ( 从 函数 或 者 统计 的 意义 上 说 )。 

公式 11-1 最 小 化 回归 问题 




















am Tab -9 atb) 
1. EAR RR Sigst 

Be fay LY) RU WA Ah Ek pee $k, bl, bax, bax, byxx PERK 
种 情况 下 , NumPy 有 可 以 确定 最 优 参数 (np .polyfit O ) 和 通过 一 组 输入 值 求 取 近似 
值 (np.polyval() ) 的 内 建 函 数 。 

K 11-1 列 出 了 np.polyfit () 函数 的 参数 。 在 np.polyfit () 返 回 的 最 优 回归 相关 
系数 p 基础 上 ,np.polyval (pvx) 返 回 x 坐 标的 回归 值 。 




















表 11-1 np.polyfit () 因数 参数 









































参数 描述 
x x 坐标 ( 自 变量 值 ) 
y y 坐标 ( 因 变 量 值 ) 

deg 多 项 式 拟 合 度 

full 如 果 为 真 ， 返 回 额 外 的 诊断 信息 
w 应 用 到 y 坐标 的 权重 

cov 如 果 为 真 ， 返 回 协 方差 矩阵 























典型 向 量化 风格 的 np.polyfit () 和 np.polyval () 线性 回归 (deg=1 ) 的 应 用 方式 
如 下 。 由 于 回归 估算 值 保存 在 ry 数组 中 ， 所 以 我 们 可 以 像 图 11-2 那样 比较 回归 结果 
和 原始 函数 。 当 然 ， 线 性 回归 无 法 处 理 示 例 函 数 的 sin 部 分 : 




















In [7]: res = np.polyfit(x, f(x), deg=1, full=True) 0 


In [8]: res @ 

Out[8]: (array([ 4.28841952e-01, -1.31499950e-16]), 
array ([21.03238686]), 
2, 
array([1l., 1.]), 
1.1102230246251565e-14) 





In [9]: ry = np.polyval(res[0], x) ® 


In [10]: create_plot([x, x], [f£(x), ry], ['b', 'r.'l, 
['f(x)', 'regression'], ['x', 'f(x)']) 


O 线性 回归 步骤 。 
O 完整 的 结果 : 回归 参数 、 残 差 、 有 效 秩 、 奇 异 值 和 相对 条 件数 。 
© 使 用 回归 参数 求 值 。 





=—— f(z) 
* regression 














图 11-2 ”线性 回归 


为 了 处 理 示 例 函 数 的 sin 部 分 ， 必 须 使 用 更 高 次 的 单项 式 。 下 一 个 回归 试图 使 用 5 次 
单项 式 作 为 基 函 数 。 果 不 其 然 ， 回 归结 采 (如 图 11-3 所 示 ) 看 上 去 更 接近 原始 函数 。 
但 是 ， 它 还 远 称 不 上 完美 : 


In [11]: reg = np.polyfit(x, f(x), deg=5) 
ry = np.polyval(reg, x) 
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In [12]: create_plot([x, x], [f(x); ry], ['b', 'r.'l, 
['f(x)', 'regression'], ['x', 'f£(x)"']) 





— fix) . 
* regression 


N 





N 
(ez) 


-6 -4 -2 0 
x 


图 11-3 ”使 用 最 高 5 次 的 单项 式 进行 回归 
最 后 一 次 尝试 使 用 7 次 的 单项 式 作 为 基 函 数 来 计算 示例 函数 的 近似 值 。 这 次 的 结果 如 
图 11-4 所 示 ， 相 当 有 说 服 力 : 

















—— f(x) 
* regression 














图 11-4 7 次 单项 式 回 归 


In [13]: reg = np.polyfit (x, f(x), 7) 
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ry = np.polyval(reg, x) 


In [14]: np.allclose(f(x), ry)® 
Out[14]: False 


In [15]: np.mean((f(x) - ry) ** 2) @ 
Out [15]: 0.0017769134759517689 











In [16]: create_plot([x, x], [f£(x), ry], ['b', 'r.'l, 
['f(x)', 'regression'], ['x', 'f(x)']) 


@ 检查 函数 和 回归 值 是 否 相 同 〈 至 少 接近 )。 
@ 根据 函数 值 计 算 回归 值 均 方 差 (MSE )。 


2. Shaye ey ey 

RK, “REE EE AYE RY, AEE AY VSG ER, (oi) OA) FH et ee za 
的 认识 进行 近似 值 计 算 。 在 这 种 情况 下 ， 单 独 的 基 函 数 必须 通过 一 个 矩阵 方法 定义 (也 
就 是 使 用 NumPy 的 ndarray WR). 首先 ,例子 中 的 多 项 式 最 高 为 3 次 ( 见 图 11-5 )。 
本 例 的 核心 函数 是 np.Linalg.1Lstsd() : 




































































In [17]: matrix = np.zeros((3 + 1, len(x))) © 


matrix[3, :] =x ** 3 @ 
matrix[2, :] =x ** 2 @ 
matrix[l, :] =x @ 
matrix[0, :] = 1 @ 


[In [18]: reg = np.linalg.lstsq(matrix.T, f(x), rcond=None) [0] © 


In [19]: reg.round(4) © 
Out[19]: array([ 0. , 0.5628, -0O. , -0.0054]) 


In [20]: ry = np.dot (reg, matrix) © 











[In [21]: create_plot([x, x], [f(x), ry], ['b', 'r."'], 
['f(x)', 'regression'], ['x', 'f(x)']) 


O ALKA (FEM ) 所 用 的 ndarray 对 象 。 
@ WBE = UKE 

© 回归 步骤 。 

@ 最 优 回归 参数 。 

@ 函数 值 的 回归 估算。 
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= f(x) 
* regression 


f(x) 
© 











11-5 有 单独 基 函 数 的 回归 











根据 前 面 单项 式 的 经 验 ， 图 11-5 中 的 结果 并 不 如 预期 那么 好 。 使 用 更 通用 的 方法 可 以 
让 我 们 利用 对 示例 函数 的 认识 。 我 们 知道 函数 中 有 一 个 sin 部 分 。 因 此 ， 在 基 函 数 中 
包含 一 个 正弦 函数 是 有 意义 的 。 简 单 起 见 ， 我 们 替换 最 高 次 的 单项 式 。 现 在 的 拟 合 很 
完美 ， 如 图 11-6 所 示 : 


In [22]: matrix[3, :] = np.sin(x) © 








In [23]: reg = np.linalg.lstsq(matrix.T, f(x), xrcond=None) [0] 


In [24]: reg.round(4) @ 
Out[24]: array([0. , 0.5, 0. p 1. ]) 


In [25]: ry = np.dot(reg, matrix) 


In [26]: np.allclose(f(x), ry) ® 
Out [26]: True 


In [27]: np.mean((f(x) - ry) ** 2) © 
Out [27]: 3.40473599288553le-31 








In [28]: create_plot([x, x], [f£(x), ry], ['b', 'r.'l, 
'f(x)', 'regression'], ['x', 'f(x)"']) 


O MISE PARA AS Fn Bi ea A AT 
@ 最 优 回归 参数 恢复 原始 参数 。 
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© 现在 ， 回 归 产 生 了 完美 的 拟 合 。 





一 f(x) 
* regression 


f(x) 
© 





-6 -4 -2 0 2 4 6 











11-6 ”使 用 正弦 基 范 数 的 回归 


3.， 有 噪声 的 数据 

对 于 有 噪声 的 数据 回归 同样 能 够 很 好 地 处 理 ， 这 种 数据 来 自 于 模拟 或 者 〈 不 完善 的 ) 测量 。 
为 了 阐述 这 个 要 点 ， 我 们 生成 同样 具有 噪声 的 自 变量 观测 值 和 因 变 量 观 测 值 。 图 11-7 表明 ， 
回归 结果 比 有 噪声 的 数据 点 更 接近 原始 函数 。 在 某 种 意义 上 ， 回 归 在 一 定 程度 上 平均 了 噪声 : 




















3 — f(x) 
à * regression 














11-7 ”使 用 有 噪声 数据 的 回归 
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In [29]: xn = np.linspace(-2 * np.pi, 2 * np.pi, 50) © 
xn = xn + 0.15 * np.random.standard_normal(len(xn)) @ 
yn 


ll 


f(xn) + 0.25 * np.random.standard_normal(len(xn)) © 


In [30]: reg = np.polyfit(xn, yn, 7) 
ry = np.polyval(reg, xn) 
In [31]: create_plot([x, x], [f£(x), ry], ['b', 'r.'l, 
['£(x)', 'regression'], ['x', 'f(x)']) 


O 新 的 x 确定 值 。 
@ 在 x 值 中 引入 噪声 。 
© HE y 值 中 引入 噪声 。 


4. 未 排序 数据 


回归 的 另 一 个 重要 特点 是 ， 它 可 以 无 颖 地 处 理 未 排序 数据 。 前 面 的 例子 都 依赖 于 经 过 
排序 的 x* 数据 ， 情 况 并 不 总 是 这 样 的 。 为 了 说 明 这 一 点 ， 我 们 随机 生成 自 变量 数据 点 。 
在 这 种 情况 下 ， 仅 从 视觉 上 检查 原始 数据 很 难 识别 出 任何 结构 : 


In [32]: xu = np.random.rand(50) * 4 * np.pi - 2 * np.pi © 


























yu = £(xu) 


In [33]: print (xu[:10].round(2)) © 
print (yu[:10].round(2)) © 
[-4.17 -0.11 -1.91 2.33 3.34 -0.96 5.81 4.92 -4.56 -5.42] 
(1.23 OL ag 1682 AT a T29 2545) TAg R16 295 2.95) 


In [34]: reg = np.polyfit (xu, yu, 5) 





ry = np.polyval (reg, xu) 
In [35]: create_plot([xu, xu], [yu, ry], ['b.', 'ro'], 
['£(x)', 'regression'], ['x', 'f£(x)']) 


© 随机 化 x 值 。 
和 有 了 噪声 数据 一 样 ， 回 归 方 法 不 关心 观测 点 的 顺序 。 这 在 研究 公式 11-1 所 示 的 最 小 化 
问题 的 结构 时 很 明显 。 从 图 11-8 中 显示 的 结果 来 看 也 很 明显 。 
5. 多维 
最 小 二 乘 回归 方法 的 另 一 个 优点 是 ， 不 需要 太 多 的 修改 就 可 以 用 于 多 维 的 情况 。 接 下 
来 以 fm () 函数 为 例 进 行 讲 解 : 

In [36]: def fm(p): 


X, YSP 
return np.sin(x) + 0.25 * x + np.sqrt(y) + 0.05 * y ** 2 





























11.1 逼近 法 307 








f(x) 


f(x) 


ef >a 。 


Q. 


e 
regression e 
é 








为 了 正确 地 可 视 化 这 个 函数 ， 我 们 需要 自 变 量 数据 点 的 网 格 ( 在 两 个 维度 上 )。 


11-8 使 用 未 排序 数据 的 回归 





图 11-9 





根据 以 x、y、z 表示 的 自 变量 和 因 变 量 二 维 数据 点 网 格 ， 显 示 了 fm () 函数 的 形状 : 


In 


[37]: 


[38]: 


[39]: 


[40]: 


x = np.linspace(0, 10, 20) 
y np.linspace(0, 10, 20) 
X, Y = np.meshgrid(x, y) © 


Z = fm((X, Y)) 
x = X.flatten() @ 
y = Y.flatten() @ 


from mpl_toolkits.mplot3d import Axes3D ® 


fig = plt.figure(figsize=(10, 6)) 

ax = fig.gca(projection='3d') 

surf = ax.plot_surface(X, Y, Z, rstride=2, cstride=2, 
cmap='coolwarm', linewidth=0.5, 
antialiased=True) 

ax.set_xlabel ('x"') 

ax.set_ylabel('y"') 

ax.set_zlabel('f(x, y)') 

fig.colorbar(surf, shrink=0.5, aspect=5) 


@ 从 一 维 ndarray 对 象 生成 二 维 ndarray 对 象 ( 网 格 )。 
© MZH ndarray 对 象 得 到 一 维 ndarray WH. 
© 必要 时 从 matplotlib 导入 3D 绘图 功能 。 
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f(x, y) 


10 





为 了 获得 好 的 回归 绪 


11-9 ”使 用 两 个 参数 的 函数 


np .sqrt () 函数 。 11-10 直观 展示 了 完美 的 回归 结果 : 


In [41]: 


In [42]: 


In [43]: 


In [44]: 


matrix = np.zeros((len(x), 6 + 
np.sqrt(y) © 
np.sin(x) © 

y ** 2 


x ** 2 


matrix[:, 6] 


matrix[:, 
matrix[:, 


matrix[:, 


5 
4 
matrix[:, 3 
2 
matrix[:, 1 
0 





matrix[:, 


reg = np.linalg.lstsq (matrix, 


y: 
x 


1 


RZ = np.dot (matrix, 


fig = plt.figure(figsize=(10, 


1)) 


reg) .reshape((20, 20)) 


ax = fig.gca(projection='3d"') 
lot_surface(X, Y, Z, rstride=2, 


surfl = ax.pl 


surf2 = ax.pl 


ax.set_xlabel 
ax.set_ylabel 


antialiased=True) 


cmap=mpl.cm.coolwarm, 


9 


lot_wireframe(X, Y, 





ax.set_zlabel 


ax.legend () 


fig.colorbar (surf, 


6)) 


RZ, rstride=2, 


© 


cstride=2, 
linewidth=0.5, 


label='regression') © 


shrink=0.5, 


aspect=5) 


fm((x, y)), rcond=None) [0] 


cstride=2, 


， 我 们 将 应 用 基本 函数 集 ， 包 括 fm() 函数 、np.sin() 和 
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O 用 于 y ZA np. sart () 函数 。 
@ 用 于 x 参数 的 np.sin() 函数 。 
© 将 回归 结果 转化 为 网 格 结构 。 
@ 绘制 原始 函数 曲面 。 

@ 绘制 回归 曲面 。 





— regression 











图 11-10” 双 参数 函数 的 回归 曲面 





回归 
~ 最 小 二 乘 回归 方法 有 多 种 应 用 领域 ， 包括 简单 的 函数 逼近 和 基于 有 嗓 
声 或 者 未 排序 数据 的 函数 逼近 。 这 些 方法 可 以 应 用 于 一 维 问题 ， 也 可 
以 应 用 于 多 维 问题 。 由 于 这 种 方法 的 基础 数学 理论 ， 所 以 它 在 一 维 问 
题 和 多 维 问题 上 的 应 用 总 是 “几乎 相同 ”。 


11.1.2 ”插值 


与 回归 相 比 , 插值 (例如 ，3 次 样 条 插值 ) 在 数学 上 更 为 复杂 。 它 还 被 限制 在 低 维度 问 
题 上 。 给 定 一 组 有 序 的 观测 点 ( 按照 x 维 排序 )， 基 本 的 思路 是 在 两 个 相 邻 数据 点 之 间 
进行 回归 ， 这 样 做 不 仅 产生 的 分 段 插值 函数 完全 匹配 数据 点 ， 而 且 函 数 在 数据 点 上 连 
续 可 微分 。 连 续 可 微分 性 需要 至 少 3 阶 插值 一 一 也 就 是 3 次 样 条 插值 。 然 而 ， 这 种 方 
法 一 般 也 适用 于 4 次 或 者 线性 样 条 插值 。 
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下 面 的 代码 可 实现 线性 样 条 插值 ， 结 果 如 图 11-11 所 示 : 


In [45]: import scipy.interpolate as spi © 











In [46]: x = np.linspace(-2 * np.pi, 2 * np.pi, 25) 


In [47]: def f(x): 


return np.sin(x) + 0.5 * x 


In [48]: ipo = spi.splrep(x, f(x), k=1) @ 





In [49]: iy = spi.splev(x, ipo) ® 


In [50]: np.allclose(f(x), iy) © 
Out [50]: True 











In [51]: create_plot([x, x], [f(x), iy], ['b', 'ro'], 


['f£(x)', ‘interpolation'], ['x', 'f(x)"']) 
@ 从 sciPy 导 人 必要 的 子 库 。 
@ 实现 线性 样 条 插值 。 
得 出 内 插值 。 
O 检查 内 插值 是 否 ( 足够 ) 接近 函数 值 。 


























—— f(x) 
@ interpolation 


f(x) 
o 














11-11 ”线性 样 条 插值 ( 完整 数据 集 ) 
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如 果 有 按照 x 值 排 序 的 一 组 数据 点 ， 那么 应 用 本 身 也 和 使 用 np.polyfit () 和 
np.polyval () 函数 一 样 简单 。 在 本 例 中 ， 它 们 对 应 的 函数 是 sci.splrep() 和 
sci.splev()。 表 11-2 列 出 了 sci.splrep() 函数 的 主要 参数 。 

















表 11-2 sci.splrep() 因数 参数 































































































参数 描述 

x (有 序 ) x 坐标 ( 自 变量 值 ) 
y ( 按 x 排 序 ) 坐标 ( 因 变 量 值 ) 
w 应 用 到 y 坐标 的 权重 

xb、 xe 拟 合 区 间 ， 如 果 设 置 为 None 则 区 间 为 [x[0]，x[-1]] 
k 样 条 拟 合 顺序 (1<k<5 ) 
s 平滑 因子 〈 越 大 越 平滑 ) 

full_output 如 果 为 真 ， 返 回 附 加 输出 
quiet 如 果 为 真 ， 抑 制 消息 





K 11-3 列 出 sci.splev() 函数 的 参数 。 


表 11-3 sci.splev() 函数 参数 
































参数 描述 
x (有 序 ) x 坐标 〈 自 变量 值 ) 
tck splrep () 返 回 的 长 度 为 3 的 序列 〈 节 点 、 系 数 、 阶 数 ) 
der 导数 的 阶 〈0 为 元 函数 ，1 为 一 阶 导数 ) 
ext x 不 在 节点 序列 中 时 的 行为 (0 外 推 ，1 返回 0，2 引发 ValueError 异常 ) 





样 条 插值 在 金融 学 中 往往 用 于 估算 未 包含 在 原始 观测 点 中 的 自 变量 数据 点 的 因 变 量 
值 。 为 此 ， 在 下 个 例子 中 选择 一 个 更 小 的 区 间 ， 仔 细 观 察 一 次 样 条 插入 的 值 。 图 11-12 
说 明 ， 插 值 函 数 确 实 可 以 线性 地 在 两 个 观测 点 之 间 插 值 。 对 于 某 些 应 用 ， 这 可 能 不 够 
精确 。 此 外 ， 很 明显 函数 在 原始 数据 点 上 不 是 连续 可 微分 的 一 一 这 是 另 一 个 不 足 : 

In [52]: xd = np.linspace(1.0, 3.0, 50) © 
iyd = spi.splev(xd, ipo) 


















































In [53]: create_plot([xd, xd], [f(xd), iyd], ['b', 'ro'], 


['£(x)', '‘interpolation'], ['x', 'f£(x)']) 


@ 具有 更 多 数据 点 的 较 小 区 间 。 
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f(x) 
@ = interpolation 





1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 








11-12 ”线性 样 条 插值 ( 数据 子 集 ) 


重复 整个 练习 ， 这 次 使 用 3 次 样 条 ， 结 果 明 显 改善 ( 见 图 11-13 ): 


54]: 





In 


55]; 
55]; 


56]: 
56]: 





571% 


ipo = spi.splrep(x, f(x), k=3) © 
iyd = spi.splev(xd, ipo) @ 


np.allclose(f(xd), iyd) ® 
False 


np.mean((f£(xd) - iyd) ** 2) © 
1.1349319851436892e-08 


create_plot([xd, xd], [f(xd), iyd], ['b', 'ro'], 
['f(x)', 'interpolation'], ['x', 'f(x)"']) 


O 完整 数据 集 上 的 3 次 样 条 插值 。 
@ 结果 应 用 到 更 小 的 时 间 间 隔 。 

© 插值 仍然 不 完美 。 

@ 但 好 于 从 前 。 








插值 

在 可 以 应 用 祥 条 插值 的 情况 下 ,可 以 期 望 得 到 比 最 小 二 冬 回 归 方 法 更 
好 的 近似 结果 。 但 是 要 记 住 ， 必 须 有 排序 ( 且 “无 噪声 " ) 的 数据 ， 
该 方法 仅 限于 低 维 度 问 题 。 样 条 插值 的 计算 要 求 也 更 高 ， 在 菜 些 用 例 
中 可 能 导致 花费 的 时 间 比 回归 方法 的 长 得 多 。 
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ha) 
@ interpolation 








1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 








图 11-13 3 次 样 条 插值 ( 数据 子 集 ) 


11.2 ew 

在 金融 学 和 经 济 学 中 ， 四 优化 起 着 重要 的 作用 。 这 方面 的 例子 包括 根据 市 场 数据 校准 
期 权 定 价 模型 ， 或 者 代理 人 效用 函数 的 优化 。 我 们 以 下 面 定 义 的 函数 fm () 为 例 进行 这 
种 优化 : 


In [58]: def fm(p): 








return (np.sin(x) + 0.05 * x ** 2 
+ np.sin(y) + 0.05 * y ** 2) 











图 11-14 展示 了 上 述 函 数 在 定义 的 x 和 yy 区 间 内 的 图 形 。 从 图 11-14 可 以 看 出 这 
个 函数 有 多 个 局 部 极 小 值 。 从 这 个 特定 的 图 形 表现 中 无 法 真正 确认 全 局 最 小 值 是 
否 存 在 : 


In [59]: x = np.linspace(-10, 10, 50) 
y = np.linspace(-10, 10, 50) 





























X, Y = np.meshgrid(x, y) 
Z = fm((X, Y)) 


In [60]: fig = plt.figure(figsize=(10, 6)) 
ax = fig.gca(projection='3d') 
surf = ax.plot_surface(X, Y, Z, rstride=2, cstride=2, 
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cmap='coolwarm', linewidth=0.5, 
antialiased=True) 
ax.set_xlabel ('x') 
ax.set_ylabel ('y') 
ax.set_zlabel('f(x, y)') 
fig.colorbar(surf, shrink=0.5, aspect=5) 

















图 11-14 ”以 两 个 参数 最 小 化 的 函数 


11.2.1 全 局 优化 


下 面 将 实现 全 局 最 小 化 和 局 部 最 小 化 。 所 应 用 的 sco.brute () 和 sco.fmin() 函数 
来 自 scipy.optimize(), 


为 了 仔细 观察 这 些 最 小 过 程 的 幕后 操作 ,使 用 以 下 代码 为 原 函 数 增补 可 以 输出 当前 参 
数值 和 函数 值 的 选项 。 这 使 我 们 可 以 跟踪 过 程 的 所 有 相关 信息 : 


In [61]: import scipy.optimize as sco © 


In [62]: def fo(p): 
x, YFP 
Z = np.sin(x) + 0.05 * x ** 2 + np.sin(y) + 0.05 * y ** 2 
if output == True: 
print ('%8.4f | %8.4£ | $8.4f' % (x, y, z)) @ 


return z 
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In [63]: output = True 





sco.brute(fo, ((-10, 10.1, 5), (-10, 10.1, 5)), finish=None) ® 
-10.0000 -10.0000 11.0880 
-10.0000 -10.0000 11.0880 
-10.0000 -5.0000 7.7529 
-10.0000 0.0000 5.5440 
-10.0000 5.0000 5.8351 
-10.0000 10.0000 10.0000 
-5.0000 -10.0000 7.7529 
-5.0000 -5.0000 4.4178 
-5.0000 0.0000 2.2089 
-5.0000 5.0000 2.5000 
-5.0000 10.0000 6.6649 
0.0000 -10.0000 5.5440 
0.0000 -5.0000 2.2089 
0.0000 0.0000 0.0000 
0.0000 5.0000 0.2911 
0.0000 10.0000 4.4560 
5.0000 -10.0000 5.8351 
5.0000 -5.0000 2.5000 
5.0000 0.0000 0.2911 
5.0000 5.0000 0.5822 
5.0000 10.0000 4.7471 
10.0000 -10.0000 10.0000 
10.0000 -5.0000 6.6649 
10.0000 0.0000 4.4560 
10.0000 5.0000 4.7471 
10.0000 10.0000 8.9120 








Out [63]: array ([0., 0.]) 


@ 从 SciPy 导入 必要 的 子 库 。 
© 如 果 output = True， 打 印信 息 。 
© Aik. 
根据 函数 的 初始 参数 ， 最 优 参数 值 为 x=y=0。 人 快速 检查 上 述 输出 可 以 看 出 ， 结 果 函 数 
值 也 为 0。 你 可 能 倾向 于 接受 这 一 结果 为 全 局 优化 。 然而, 第 一 次 参数 化 的 过 程 相当 粗 
Be: 对 两 个 输入 参数 均 使 用 5 的 步 长 。 现 在 进行 显著 的 细 化 ， 以 得 到 更 好 的 结果 ， 同 
时 也 说 明 上 述 解 决 方案 不 是 最 优 的 : 

In [64]: output = False 


optl = sco.brute(fo, ((-10, 10.1, 0.1), (-10, 10.1, 0.1)), 
finish=None) 
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In [65]: optl 


Out [65] 


In [66] 
Out [66] 


最 优 参 数值 现在 为 x=y=-1 .4， 全 局 优化 的 最 小 函 
11.2.2 局 部 优化 


fm (opt1) 
-1.7748994599769203 


array ([-1.4, 


-1.4)) 


接 下 来 的 局 部 凸 优化 需要 用 到 全 局 优化 的 结果 。sco .fmin ( 
化 的 函数 和 起 始 参数 值 。 可 选 的 参数 值 是 输入 参数 宽容 度 
迭代 及 函数 调用 次 数 。 局 部 优化 可 进一步 改善 结 


In [67]: 


opt2 


In [68]: opt2 
array ([-1.42702972, 


Out [68]: 


In [69]: 
Out [69] 


| .4 
| .4 


| .4 


| .4 
| .4 


| .4 





4 





output = 


= sco.fmin(fo, 


000 
700 
000 


1.3300 


350 
350 
088 
438 
328 
591 
213 
235 
305 
168 
305 
396 
259 
259 
304 
270 





True 





1 .4 


| .4 


| .4 


| .4 


| .4 


| .4 





| 


000 
000 
700 
700 
175 


| .3475 


394 
569 
427 
208 
347 
096 
344 
516 
260 
257 
325 
241 
177 
288 





opt1, 








xtol=0.001, 
maxiter=15, maxfun=20) 
L.7749 
1.7743 
1.7743 
1.7696 
1.7756 
eT Ar 
Ll. 7755 
LTIS 
1.7756 
les f FOL 
le hoc 
Lo T55 
L.7757 
Ls VES 
Lh LOD 
1.7756 
Leh FO 
hod 
L.7757 
L TESA 


数值 大 约 为 -1.7749。 


函数 的 输入 是 需要 最 小 
enon 以 及 最 大 


ftol=0.001, 


o 


Warning: Maximum number of function evaluations has been exceeded. 


@ 局 部 串 优 化 。 


fm (opt2) 
-1.7757246992239009 


ee 


2876755]) 
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在 许多 凸 优化 问题 中 ， 建 议 在 局 部 优化 之 前 进行 全 局 优化 。 主 要 原因 是 局 部 凸 优化 算法 很 容 

易 陷 人 某 个 局 部 最 小 值 (所 谓 的 “盆地 跳跃 ”( basin hopping ) )， 而 忽略 “更 好 ”的 局 部 最 小 

值 和 全 局 最 小 值 。 下 面 可 以 看 到 ， 将 初始 参数 化 设置 为 x=y=2 可 得 出 高 于 0 的 “最 小 ” 值 : 
In [70]: output = False 


sco.fmin(fo, (2.0, 2.0), maxiter=250) 
Optimization terminated successfully. 





Current function value: 0.015826 
Iterations: 46 
Function evaluations: 86 


Out [70]: array([4.2710728 , 4.27106945]) 


11.23 有 约束 优化 

到 目前 为 止 ， 我 们 只 考虑 了 无 约束 优化 问题 ， 但 是 许多 类 型 的 经 济 学 或 者 金融 学 优化 
问题 都 有 一 个 或 者 多 个 约束 条 件 。 这 些 约束 可 能 采取 等 式 或 者 不 等 式 等 正规 形式 。 

举 个 简单 的 例子 ， 考 虑 可 能 投资 两 种 高 风险 证 券 (希望 效用 最 大 化 ) 的 投资 者 的 效用 
最 大 化 问题 。 两 种 证 券 今天 的 价格 为 gu=go=10 美元 。 一 年 之 后 ， 状 态 u 下 它们 的 收益 
分 别 为 15 美元 和 5 美元 ， 而 在 状态 d 下 收益 分 别 为 5 美元 和 12 美元 。 两 种 状态 出 现 
的 可 能 性 相同 。 两 种 证 券 的 向 量 收益 分 别 记 为 ra M rpo 

假设 投资 者 的 投资 预算 为 w=100 美元 ,根据 效用 函数 u(w) = Vw 得 出 未 来 的 财富 效率 ， 
其 中 w 是 可 用 的 财富 ( 以 美元 计算 )。 公 式 11-2 是 最 优化 问题 的 公式 ， 其 中 a, b 是 投 
资 者 购买 的 证 券 数 量 。 

公式 11-2 ”预期 效用 最 大 化 问题 (1) 


max E(u(w,)) = pm, +0- pm, 


w =aer, +ber, 






































w 2aeq,+beq, 
a,b È 0 


代入 所 有 数值 化 假设 , 就 得 到 公式 11-3。 注意 , 我 们 还 对 负数 的 预期 效用 最 小 化 做 了 更 改 。 
公式 11-3 ”预期 效用 最 大 化 问题 (2) 





min- E(u(w,))=—(.5- Jw, +0.5. Jwa) 
wi, =a:15+b:5 
Wy =a:5+b:12 
100>a-10+b-10 
a,b 20 
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我 们 使 用 scipy.optimize.minimize () 函数 来 解决 上 述 问题 。 除 了 需要 最 小 化 的 


函数 之 外 ， 这 个 函数 还 } 


和 公 


组 对 象 元 组 的 形式 ) 作为 输入 。 我 们 可 以 将 公式 11-3 通过 如 下 代码 实现 : 





In [71]: import math 
In [72]: def Eu(p): © 

s, b=p 

return -—(0.5 * math.sqrt(s * 15 + b * 5) + 

0.5 * math.sqrt(s * 5 + b * 12)) 
In [73]: cons = ({'type': 'ineq', 
‘fun': lambda p: 100 = p[0] * 10 - p[1] * 10} 

In [74]: bnds = ((0, 1000), (0, 1000)) © 
In [75]: result = sco.minimize(Eu, [5, 5], method='SLSQP', 





bounds=bnds, constraints=cons) 


) 


(4) 


为 了 最 大 化 预期 效用 而 最 小 化 的 函数 。 
字典 对 象形 式 的 不 等 式 约束 。 
参数 边界 值 ( 选择 为 足够 宽 )。 


0 
© 
© 
© 


约束 优化 。 





result 对 象 包含 所 有 相关 信息 。 对 于 最 小 函数 值 ， 必 须 记 得 恢复 符号 : 








In [76]: result 
Out [76]: fun: —9.700883611487832 
jac: array ([-0.48508096, -0.48489535]) 
message: ‘Optimization terminated successfully.' 
nfev: 21 
nit: 5 
njev: 5 
status: 0 
success: True 
x: array([8.02547122, 1.97452878]) 
In [77]: result['x'] © 
Out [77]: array([8.02547122, 1.97452878]) 
In [78]: -result['fun'] @ 
Out [78 9.700883611487832 
In [79]: np.dot(result['x'], [10, 10]) ® 


© 


式 、 不 等 式 ( 以 字典 对 象 列表 的 形式 ) 和 参数 范围 ( 以 元 
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Out [79]: 99.99999999999999 
@ 最 优 参 数值 ( 即 最 优 投资 组 合 )。 
@ 函数 的 最 小 负数 值 是 最 优 和 解决 方案 值 。 
© 预算 约束 是 有 约束 力 的 ; 投入 所 有 财富 





11.3 积分 


在 估 值 和 期 权 定 价 时 ， 积 分 是 一 个 重要 的 数学 工具 。 这 来 源 于 一 个 事实 : 衍生 物 的 风 

险 中 立 价 直 一 般 可 以 用 风险 中 立 CH) 测度 下 的 预期 折 现 收益 来 表示 。 这 一 预期 在 离 

散 情 况 下 是 个 总 和 ， 在 连续 情况 下 是 一 个 积分 。scipy .integrate 子 库 提供 了 数值 
积分 所 用 的 不 同 函 数 。 示例 函数 在 11.1 节 中 已 经 讲解 过 


In [80]: import scipy.integrate as sci 














z 



































In [81]: def f(x): 


return np.sin(x) + 0.5 * x 


积分 区 间 应 该 为 [0.5，9.5] ， 这 就 得 出 了 公式 11-4 所 示 的 定 积分 。 
公式 11-4 示例 函数 的 积分 


ie fœ)dx= fi sino) +0.5xdx 


下 面 的 代码 定义 了 求 取 积分 的 主要 Python 对 象 : 


In [82]: = np.linspace(0, 10) 


f (x) 

0.5 © 

= 9.5 @ 

Ix = np.linspace(a, b) ® 
Iy = f(Ix) 9 


@ 积分 左 界 。 
@ 积分 右 界 。 
© 积分 区 间 值 。 
@ 积分 函数 值 。 
图 11-15 将 积分 值 表 示 为 函数 下 的 灰色 阴影 区 域 : ， 


ll 


ll 


x 
X 
a 
b 








1 关于 此 类 图 表 的 讨论 参见 第 7 章 。 一 一 原 注 
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f(x) 


4.675 








b 
J flx)dx 
a 
0.729 
a b 
x 
图 11-15 “积分 值 表现 为 阴影 面积 
In [83]: from matplotlib.patches import Polygon 
In [84]: fig, ax = plt.subplots(figsize=(10, 6)) 


11.3.1 


plt.plot(x, y, 'b', linewidth=2) 

plt.ylim(bottom=0) 

Ix = np.linspace(a, b) 

iy = £ (Ix) 

verts = [(a, 0)] + list(zip(Ix, Iy)) + [(b, 0)] 

poly = Polygon (verts, facecolor='0.7', edgecolor='0.5") 

ax.add_patch (poly) 

plt.text (0.75 * (a + b); 1.5, r"$\int_a^b f(x) dxS", 
horizontalalignment='center', fontsize=20) 

plt.figtext(0.9, 0.075, '$x$') 

plt.figtext (0.075, 0.9, '$f£(x)$"') 

ax.set_xticks((a, b)) 

ax.set_xticklabels(('$a$', '$b$')) 

ax.set_yticks([f(a), f(b)]); 





SUBIR 


scipy.integrate 子 库 包含 一 组 精 选 的 函数 ， 可 以 计算 给 定 上 下 限 和 数学 函数 下 的 
数值 积分 。 这 些 函 数 的 例子 包含 用 于 固定 高 斯 求 积 的 sci .fixed_quad () 、 用 于 自 适 
应 求 积 的 sci.quad() 和 用 于 龙 贝 格 积分 的 sci .romberg () : 
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In [85]: sci.fixed_quad(f, a, b) [0] 
Out [85]: 24.366995967084602 
In [86]: sci.quad(f, a, b) [0] 
Out [86]: 24.374754718086752 
In [87]: sci.romberg(f, a, b) 
Out [87]: 24.374754718086713 
还 有 一 些 积分 函数 以 输入 列表 或 者 包含 函数 值 和 输入 值 的 ndarray 对 象 作 为 输入 。 这 种 
函数 的 例子 包括 使 用 梯形 法 则 的 sci.trapz () 和 实现 辛普森 法 则 的 sci .simps () : 
In [88]: xi = np.linspace(0.5, 9.5, 25) 
In [89]: sci.trapz(f(xi), xi) 
Out [89]: 24.352733271544516 
In [90]: sci.simps(f(xi), xi) 
Out [90]: 24.37496418455075 
11.3.2 ”通过 模拟 求 取 积 4 
通过 蒙特 卡 洛 模拟 (参见 第 12 章 ) 的 期 权 和 衍生 物 估 值 基于 这 样 一 个 认识 一 一 可 以 通 
过 模拟 来 求 取 积 分 。 为 此 ， 在 积分 区 间 内 取 了 个 随机 的 x 值 ， 并 计算 每 个 随机 x 值 处 
的 积分 函数 值 。 加 总 所 有 函数 值 并 求 其 平均 值 ， 就 可 以 得 到 积分 区 间 的 平均 函数 值 。 
将 该 值 乘 以 积分 区 间 长 度 ， 可 以 得 出 估算 的 积分 值 。 
下 面 的 代码 说 明 蒙 特 卡 洛 估算 积分 值 如何 随 着 提取 随机 数 个 数 的 增加 而 收敛 (但 并 非 
单调 收敛 )。 即 使 提取 的 随机 数 个 数 较 少 ， 估 算 值 也 已 经 相当 接近 : 
In [91]: for i in range(1, 20): 
np.random.seed (1000) 
x = np.random.random(i * 10) * (bp - a) +a @® 
print (np.mean(f(x)) * (b - a)) 
24.804762279331463 
26.522918898332378 
26.265547519223976 
26.02770339943824 
24.99954181440844 
23.881810141621663 
23.527912274843253 
23.507857658961207 
23.67236746066989 
23.679410416062886 
24.424401707879305 
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24.239005346819056 
24.115396924962802 
24.424191987566726 
23.924933080533783 
24.19484212027875 

24.117348378249833 
24.100690929662274 
23.76905109847816 


@ 随机 数 x 的 值 随 每 次 循环 增加 。 








11.4 符号 计算 


前 几 节 主要 关心 的 是 数值 计算 。 本 节 介 绍 符号 计算 ， 这 种 计算 在 许多 金融 领域 中 很 有 





用 处 。 我 们 通常 使 用 专用 于 符号 计算 的 SymPy 库 。 


11.4.1 基础 知识 
SymPy 引入 了 新 的 对 象 类 。 最 基本 的 是 Symbol 类 : 


In [92]: import sympy as sy 


In [93 


ll 


sy.Symbol ('x"') 


0 
sy.Symbol('y') © 


In [94]: type (x) 
Out [94]: sympy.core.symbol.Symbol 


In [95]: sy.sqrt(x) @ 
Out [95]: sqrt (x) 


In [96]: 3 + sy.sqrt(x) - 4 ** 2 ® 
Out [96]: sqrt (x) - 13 


In [97]: f =x ** 24+3+4+0.5 * x ** 243/289 


In [98]: sy.simplify(f) © 
Out [98]: 1.5*x**2 + 4.5 


O 定义 所 要 处 理 的 符号 。 
@ 对 一 个 符号 应 用 函数 。 
O 在 符号 上 定义 的 数值 表达 式 。 
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O 符号 化 定义 的 函数 。 

© 简化 的 函数 表达 式 。 

已 经 表现 出 了 一 个 重大 差异 。 尽 管 x 没有 数字 值 , 但 是 SymPy 已 经 定义 了 x 的 平方 根 ， 
因为 x 是 一 个 符号 (Symbol) 对 象 。 在 这 个 意义 上 ，sy .sqrt (x) 可 以 成 为 任何 数学 
表达 式 的 一 部 分 。 注 意 ，SymPy 通常 自动 简化 给 定 的 数学 表达 式 。 我 们 可 以 用 符号 对 
象 定 义 任何 函数 。 它 们 不 会 和 Python 函数 混 消 。 

SymPy 为 数学 表达 式 提 供 了 3 个 基本 的 演 染 器 : 

。 基于 LaTeX 的 演 染 器 ; 

e 基于 Unicode ATH BFE; 

e 基于 ASCII 的 演 染 器 。 


Hiu, Zr RH Jupyter Notebook 环境 (基于 HTML ) 中 工作 时 ，LaTex 演 染 通常 是 好 (在 
视觉 上 引人入胜 ) 的 选择 。 下 面 ， 我 们 将 一 直 使 用 最 简单 的 ASCII 泻 染 器 以 表明 不 涉 
及 任何 人 工 制作 的 排版 设 定 : 


In [99]: sy.init_printing(pretty_print=False, use_unicode=False) 


















































In [100]: print (sy.pretty (f) ) 
2 
1.5*x + 4.5 


In [101]: print (sy.pretty(sy.sqrt (x) + 0.5)) 


A ae ea ae Oro) 
这 里 我 们 不 过 多 地 纠缠 细节 ，SymPy 还 提供 了 许多 其 他 有 用 的 数学 函数 一 一 例如 ， 用 
Fok n (APRA. FRR 的 字符 串 表 示 的 前 40 个 字符 (最 多 可 达 40 万 位 )。 这 个 
程序 还 在 站 值 中 搜索 6 位 生日 (日 期 优先 ) 这 是 某 些 数学 和 IT 圈子 中 流行 的 任务 : 
In [102]: %time pi_str = str(sy.N(sy.pi, 400000)) @ 


CPU times: user 400 ms, sys: 10.9 ms, total: 411 ms 
Wall time: 501 ms 
































In [103]: pi_str[:42] @ 
Out [103]: '3.1415926535897932384626433832795028841971' 





In [104]: pi_str[-40:] ® 
Out [104]: '8245672736856312185020980470362464176198' 

















In [105]: %time pi_str.find('061072') © 
CPU times: user 115 us, sys: le+03 ns, total: 116 hs 
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Wall time: 120 us 


Out[105]: 80847 





0 返回 7 前 


40 万 位 数字 的 字符 串 表示 。 


@ 显示 前 40 位。 





© 显示 最 后 


40 位 。 


O 在 这 个 字符 串 中 搜索 一 个 生日 。 


11.4.2 方程 式 
SymPy 的 长 处 之 一 是 解 方程 ， 例 如 关 -1=0 这 样 的 形式 。 一 般 来 说 ，SymPy 假定 你 寻找 
的 是 使 指定 表达 式 为 0 的 方程 解 。 因 此 ，x-1=3 这 样 的 方程 可 能 必须 改写 ， 才 能 获得 























想 要 的 结果 。 当 然 ，SymPy 可 以 处 理 更 复杂 的 表达 式 ， 如 +0.5x-1=0。 最 后 , E 
还 能 解决 涉及 虚数 的 问题 ， 如 求 x+ y =0 的 解 : 

In [106]: sy.solve(x ** 2 - 1) 

Out [106]: [-1, 1] 

In [107]: sy.solve(x ** 2 - 1 - 3) 

Out[107]: [-2, 2] 

In [108]: sy.solve(x ** 3 +.0.5-°* x °** 2 = 1) 








Out [108]: [0.858094329496553, -0.679047164748276 - 0.839206763026694*I, 


in, [J 
Out [109 








11.4.3 


-—0.679047164748276 + 0.839206763026694*T] 


09]: sy.solve(x ** 2 + y xx 2) 


]: [{x: -I*y}, {xs I*y}] 


积分 与 微分 














SymPy 的 男 一 个 长 处 是 积分 和 微分 。 下 面 ， 回 到 用 于 数值 和 模拟 积分 的 示例 函数 ， 并 
既 求 出 符号 解 ， 也 求 出 精确 的 数值 解 。 我 们 需要 积分 上 下 限 的 符号 对 象 : 


In [110]: 


in ET LS EA Ee 


In [112 








a, b = sy.symbols('a b') © 
I = sy.Integral(sy.sin(x) + 0.5 * x, (x, a, b)) @ 
: print(sy.pretty(I)) @ 
b 
/ 


| (0.5*x + sin(x)) dx 
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In [113]: int_func = sy.integrate(sy.sin(x) + 0.5 * x, x) © 


In [114]: print(sy.pretty(int_func)) ® 
2 


0.25*x — cos (x) 


In [115]: Fb = int_func.subs(x, 9.5) .evalf () 
int_func.subs(x, 0.5) .evalf() 


© 
© 


p 
w 
ll 


In [116]: Fb - Fa © 
Out [116]: 24.3747547180867 


@ 积分 区 间 的 符号 对 象 。 

@ 定义 Integral 对 象 并 以 漂亮 的 格式 打印 。 

© 得 出 反 导 数 并 以 漂亮 的 格式 打印 。 

O 区 间 两 端的 反 导数 值 ， 方 法 为 .subs () 和 .evalf () 函数 。 
@ 准确 的 积分 数值 。 

也 可 以 用 符号 积分 上 下 限 求 得 积分 符号 解 : 


In [117]: int_func_limits = sy.integrate(sy.sin(x) + 0.5 * x, (x, a, b)) © 














In [118]: print (sy.pretty(int_func_limits)) © 
2 2 
- 0.25*a + 0.25*b + cos(a) - cos (b) 


In [119]: int_func_limits.subs({a : 0.5, b : 9.5}).evalf() @ 
Out [119]: 24.3747547180868 


In [120]: sy.integrate(sy.sin(x) + 0.5 * x, (x, 0.5, 9.5)) © 
Out [120]: 24.3747547180867 


@ 求 得 积分 符号 解 。 
@ 在 替换 中 使 用 字典 对 象 求 得 积分 数值 解 。 
© 只 用 一 步 求 得 积分 数值 解 。 


11.4.4 微分 
对 不 定 积 分 求 导 通常 会 得 出 原 函 数 。 我 们 对 前 面 的 符号 反 导 数 应 用 sy.diff() 函数 来 
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验证 这 一 点 : 

In [121]: int_func.diff() 

Out [121]: 0.5*x + sin(x) 
和 积分 示例 一 样 ， 现 在 使 用 微分 得 出 前 面 的 凸 最 小 化 问题 的 解 。 为 此 ， 我 们 定义 对 应 
的 符号 函数 ， 得 出 偏 导数 ， 并 确定 根 。 
全 局 最 小 值 的 必要 ( 但 不 充分 ) 条 件 之 一 是 两 个 偏 微分 都 为 0。 但是， 这 不 能 保证 有 符 
号 解 。 算 法 和 (多 种 ) 存在 性 问题 在 这 里 都 起 了 人 作用。 然而， 我 们 可 以 从 数值 上 求 出 
两 个 方程 式 的 解 ， 再 根据 前 面 的 全 局 和 局 部 最 小 化 工作 提供 “有 根据 ”的 推测 : 


In [122]: f£ = (sy.sin(x) + 0.05 * x ** 2 
+ sy.sin(y) + 0.05 * y ** 2) © 


















































In [123]: del_x = sy.diff(f, x) @ 
del_x @ 

Out [123]: 0.1*x + cos (x) 

In [124]: del_y = sy.diff(f, y) @ 
del_y @ 

Out [124]: 0.1*y + cos(y) 


In [125]: xo = sy.nsolve(del_x, -1.5) ® 
xo © 
Out [125]: -1.42755177876459 


In [126]: yo = sy.nsolve(del_y, -1.5) ® 
yo © 
Out [126]: -1.42755177876459 


In [127]: f.subs({x : xo, y : yo}).evalf() © 
Out [127]: -1.77572565314742 


O RBI SHA 

@ 得 出 并 打印 两 个 偏 导数 。 

© 对 根 和 结果 最 优 值 进行 有 根据 的 推测 。 

@ 全 局 最 小 函数 值 。 

若 提供 没有 根据 /随机 的 猜测 ， 可 能 使 算法 陷 和 人 某 个 局 部 最 小 值 ， 而 非 全 局 最 小 值 : 


In [128]: xo = sy.nsolve(del_x, 1.5) @ 
xO 
Out [128]: 1.74632928225285 
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In [129]: yo = sy.nsolve(del_y, 1.5) @ 


yo 


Out [129]: 1.74632928225285 


In [130]% £.subs 


({x : xo, y : yo}).evalf() @ 


Out [130]: 2.27423381055640 


O 根 的 有 根据 猜测 。 
@ 局 部 最 小 函数 值 。 




















这 从 数值 上 说 明了 偏 微分 为 0 是 必要 条 件 ， 但 并 非 充 分 条 件 。 





11.5 结语 





符号 计算 
用 Python 解决 数学 问题 时 ， 应 该 时 刻 考虑 到 SymPy 和 符号 计算 。 
特别 是 对 于 交互 式 的 金融 分 析 ， 这 可 能 是 比 非 符号 方法 更 高 效 的 





本 章 介 绍 了 一 些 对 金融 学 很 重要 的 数学 主题 和 工具 。 函数 逼近 在 许多 金融 领域 都 很 


重要 , 例如 基于 曲线 插值 和 回归 的 美式 期 权 蒙 特 卡 洛 估 值 方法 。 凸 优化 技术 在 金 遇 


学 中 也 经 常用 到 ， 例 
模型 。 





ya 











1H， 用 期 权 的 市 场 报价 或 者 隐 含 波动 率 来 检验 参数 化 期 权 定价 











数值 积分 是 很 多 问题 的 中 心 , 例如 期 权 和 衍生 品 的 定价 问题 。 得 出 一 组 随机 过 程 的 
风险 中 立 概率 测度 之 后 ， 期 权 的 定价 就 可 以 归结 于 求 取 风险 中 立 测 度 下 的 期 权 预 期 
收益 ， 并 折 现 为 当前 日 期 的 价值 。 第 12 章 将 介绍 多 种 随机 过 程 在 风险 中 立 测度 下 





的 模拟 。 
最 后 ， 本 章 介绍 了 使 用 

















SymPy 进行 符号 计算 的 方法 。 对 于 一 些 数学 运算 ( 如 积分 、 微 





分 或 者 方程 式 的 解 )， 符 号 计算 可 以 提供 一 种 真正 实用 、 高 效 的 工具 。 


11.6 ”延伸 阅读 

本 章 使 用 的 Python 库 的 进一步 信息 可 以 参考 如 下 在 线 资源 。 

。 ”本 章 使 用 的 NumPy 函数 参见 SciPy 官方 文档 的 NumPy 介绍 。 

。 ”优化 和 求 根 的 资料 参见 SciPy 官方 文档 的 Optimization and Root Finding 介绍 。 
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。 使 用 scipy.integrate 求 积 分 的 方法 参见 SciPy 官方 文档 的 Integration and 
ODEs 介绍 。 


。 SymPy 网 站 提供 丰富 的 示例 和 详细 的 文档 。 
下 面 是 有 关 本 章 所 介绍 数学 概念 的 一 本 很 好 的 参考 书 : 


e Brandimarte, Paolo (2006). Numerical Methods in Finance and Economics. Hoboken, 
NJ: John Wiley & Sons. 
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第 12 章 


WUUUU 





可 预测 性 不 是 事物 的 走向 ， 而 是 它们 的 可 能 趋势 。 


一 拉 海 尔 。 法 鲁 克 











当今 ， 推 断 统计 学 是 金融 学 中 最 重要 的 数学 和 数值 学 科 之 一 。 在 现代 金融 学 发 端 之 时 
(20 世纪 70 年 代 和 80 年 代 )， 金 融 研究 的 主要 目标 是 提出 封闭 式 的 解决 方案 ， 例 如 ， 
在 特定 金融 模型 下 的 期 权 定价 。 近 年 来 ， 需 求 有 了 根本 的 变化 ,不仅 需 要 准确 地 估计 
对 金融 市 场 参 与 者 很 重要 的 单一 金融 工具 的 价值 ， 还 要 一 致 性 地 估计 整个 衍生 品 谱系 
的 价格 。 类 似 地 ， 为 了 在 整个 金融 机 构 中 提出 一 致 性 的 风险 测度 ， 例 如 风险 价值 和 信 
用 价值 调整 ， 需 要 将 该 机 构 及 所 有 同行 当成 一 个 整体 来 考虑 。 这 种 令 人 头疼 的 任务 只 
能 通过 灵活 、 高 效 的 数值 方法 来 处 理 。 因 此 ， 推 断 统 计 学 和 作为 特例 的 蒙特 卡 洛 模拟 
被 提升 到 了 显要 的 地 位 。 
本 章 从 Python 的 角度 介绍 如 下 内 容 。 
KE PLR 
一 切 都 从 〈 伪 ) 随机 数 开始 ， 它 是 所 有 模拟 工作 的 基础 ;， 尽管 准 随机 数 ( 例如 ， 
基于 Sobol 序列 ) 在 金融 学 中 相当 流行 ,但 是 伪 随 机 数 仍 是 基准 。 
EH 
在 金融 学 中 ， 两 种 模拟 工作 特别 重要 : 随机 变量 和 随机 过 程 的 模拟 。 
te lh 


估 值 有 两 种 主要 方式 : 欧式 行 权 (特定 日 期 ) 的 衍生 品 估 值 和 美式 行 权 ( 在 特定 
时 期 内 ) 估 值 ; 另外 还 有 用 于 百 莫 大 行 权 (一 组 有 限 的 特定 日 期 ) 的 估 值 工具 。 
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模拟 本 身 需 要 借助 风险 测度 的 计算 ， 例 如 风险 价值 、 信 用 风险 价值 和 信用 价值 调整 


12.1 随机 数 








A 小 x spl 
在 本 章 中 ， 我 们 将 用 numpy. random 子 库 提供 的 函数 来 生成 随机 数 : 
In [1]: import math 
import numpy as np 
import numpy.random as npr | 
from pylab import plt, mpl 
In [2]: plt.style.use('seaborn') 


mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 


@ 从 NumPy 导入 随机 数 生成 子 库 。 


flan, rand () 函数 返回 区 间 [0，1) 的 随机 数 ， 随 机 数 的 个 数 由 参数 指定 。 返 回 对 象 是 
一 个 ndarray 对 象 。 这 些 数 值 很 容易 转换 以 覆盖 其 余 实际 区 间 。 人 例如， 如果 想 生成 区 
间 [5，10) 的 随机 数 ， 可 以 像 下 例 一 样 转换 npr. rand () 的 返回 值 一 一 由 于 NumPy 的 






































广播 特性 ， 这 也 适合 于 多 维 数组 : 
In [3]: npr.seed(100) © 
np.set printoptions (precision=4) © 
In : npr.rand(10) @ 
Out : array([0.5434, 0.2784, 0.4245, 0.8448, 0.0047, 0.1216, 0.6707, 
0.8259, 0.1367, 0.5751]) 
In [5]: npr.rand(5, 5) © 
Out [5]: array([[0. mA 0.2092, 0.1853, 0.1084, 0.2197], 
[0.9786, 0.8117, 0.1719, 0.8162, 0.2741], 
[0.4317, 0.94 , 0.8176, 0.3361, 0.1754], 
[0.3728, 0.0057, 0.2524, 0.7957, 0.0153], 
[0.5988, 0.6038, 0.1051, 0.3819, 0.0365]]) 
In [6]: a= 5. @ 
b= 10. © 
npr.rand(10) * (b - a) ta © 
Out [6]: array([9.4521, 9.9046, 5.2997, 9.4527, 7.8845, 8.7124, 8.1509, 


7.9092, 5.1022, -6.050113 








1 简单 起 见 ， 我 们 将 使 用 的 所 有 伪 随 机 数 都 称 作 随 机 数 。 一 一 原 注 
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In [7]: npr.rand(5, 5) * (bp - a) +a @ 


















































Out[7]: array([[7.7234, 8.8456, 6.2535, 6.4295, 9.262 ], 

[9.875 , 9.4243, 6.7975, 7.9943, 6.774 ], 

[6.701 , 5.8904, 6.1885, 5.2243, 7.5272], 

[6.8813, 7.964 , 8.1497, 5.713 , 9.6692], 

[9.7319, 8.0115, 6.9388, 6.8159, 6.0217]]) 
o 固定 种 子 值 以 便 重 现 ， 固 定 打印 输出 的 位 数 。 
© 一 维 ndarray 对 象形 式 的 均匀 分 布 随机 数 。 
© 二 维 ngarray 对 象形 式 的 均匀 分 布 随机 数 。 
O 低 限 。 
@ 高 限 。 
O 转换 为 男 一 个 区 间 。 
@ 两 个 维度 的 相同 转换 。 
K 12-1 列 出 了 生成 简单 随机 数 的 函数 。 

表 12-1 简单 随机 数 生成 函数 
E] 数 参 数 描 述 

rand do, di, “dn 指定 组 成 的 随机 数 
randn do, dl, di 来 自 标准 正 态 分 布 的 一 个 (或 者 多 个 ) 样本 
randint low[, high, size] Mlow (4) 到 hign (不 含 ) 的 随机 整数 
random_integers|low[, high, size] low #l high (E ) 之 间 的 随机 整数 
random_sample [size] 半 开 区 间 [0.0, 1.0) 内 的 随机 浮 点 数 
random [size] 半 开 区 间 [0.0, 1.0) 内 的 随机 浮 点 数 
ranf [size] 半 开 区 间 [0.0, 1.0) 内 的 随机 浮 点 数 
sample [size] 半 开 区 间 [0.0, 1.0) 内 的 随机 浮 点 数 
choice al, size, replace, p] | 给 定 一 维 数组 中 的 随机 样本 
bytes length 随机 字 节 











表 12-1 中 的 函数 所 生成 的 随机 数 很 容易 可 视 化 。 图 12-1 以 直观 的 方式 展示 了 两 个 连续 
分 布 和 两 个 离散 分 布 的 结果 : 


In [8]: sample size = 500 











rnl = npr.rand(sample_size, 3) © 
rn2 = npr.randint(0, 10, sample_size) @ 
rn3 = npr.sample(size=sample_ size) © 
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a = [0, 25, 50, 75, 100] ® 
rn4 = npr.choice(a, size=sample_size) © 


In [9]: fig, ((axl, ax2), (ax3, ax4)) = plt.subplots (nrows=2, ncols=2, 
figsize=(10, 8)) 
axl.hist(rnl, bins=25, stacked=True) 
axl.set_title('rand') 
axl.set_ylabel ('frequency') 
ax2.hist(rn2, bins=25) 
ax2.set_title('randint') 
ax3.hist(rn3, bins=25) 
ax3.set_title('sample') 
ax3.set_ylabel ('frequency') 
ax4.hist(rn4, bins=25) 
ax4.set_title('choice'); 


@ 均匀 分 布 随机 数 。 
@ 给 定 区 间 内 的 随机 整数 。 
© 来 自 有 限 列表 对 象 的 随机 采样 值 。 








rand randint 
60 
50 
40 
30 
20 
10 
0 

0 2 4 6 8 

choice 
100 
80 
60 
40 
20 
0 

0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 














12-1 简单 随机 数 的 直方 图 
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K 12-2 列 出 了 根据 不 同 分 布 生成 随机 数 的 函数 。 


表 12-2 ”根据 不 同 分 布 生 成 随机 数 的 函数 

























































































































































































a 数 2 数 描 $ 

beta a, bil; size] [0.H 区 间 上 的 B 分 布 样本 

binomial n, pl, size] 二 项 分 布 样本 

chisquare df[, size] 卡 方 分 布 样本 

dirichlet alpha[, size] 狄 利克 雷 分 布 样本 

exponential [scale, size] 指数 分 布 样本 

f dfnum, dfden[, size] F 分布 样本 

gamma shape[, scale, size] y 分 布 样本 

geometric P[, size] 集合 分 布 样本 

gumbel [loc, scale, size] 贝尔 分 布 样本 

hypergeometric ngood, nbad, nsample[,size] | 超 几 何 分 布 样本 

laplace [loc, scale, size] 拉 普 拉 斯 分 分 布 或 者 双 指 
数 分 布 样本 

logistic [loc, scale, size] 逻辑 分 布 样本 

Lognormal [mean, sigma, size] 对 数 正 态 分 布 样本 

logseries P[, size] 对 数 序列 分 布 样本 

multinomial N, pvals[, size] 多 项 分 布 样本 

multivariate_normal |mean, cov[, size] 多 变量 正 态 分 布 样本 

negative_binomial n, pl, size] 负 二 项 式 分 布 样本 

noncentral_chisquare |df, nonc[, size] 非 中 心 卡 方 分 布 样本 

noncentral_f dfnum, dfden, nonc[, size] 非 中 心 分 布 样本 

normal [loc, scale, size] TEAS (高 斯 ) 分 布 样本 

二 Se eae EERIE BA 
洛 马克 思 分 布 样本 

poisson [lam, size] 泊 松 分 布 样本 

bettas Wetea [0.J] 区 间 内 指数 为 正 (a ) 
的 过 次 分 布 样本 

rayleigh [scale, size] 瑞 利 分 布 样本 

standard_cauchy [size] PME RTE SPAT OBE 0 ) 








样本 
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A 数 5 8 描 述 
standard_exponential | [size] 标准 指数 分 布 样本 
standard_gamma shape[, size] 标准 y 分布 样本 
standard_normal [size] 标准 正 态 分 布 ( 均值 为 9， 

标准 差 为 1 ) 样本 
standard_t df[, size] Za t 分 布 样本 (日 由 
EN af) 
triangular left, mode, right[, size] 三 角 分 布 样本 
uniform [low, high, size] 均匀 分 布 样本 
vonmises mu, kappa[, size] 5 + 米 塞 斯 分 布 样本 
wald mean, scale[, size] 瓦尔 德 ( 逆 高 斯 ) 分 布 样本 
weibull al, size] 威 布尔 分 布 样本 
zipf al, size] 齐 夫 分 布 样本 



































ig: 





虽然 在 金融 学 中 使 用 (标准 ) 正 态 分 布 遭 到 了 许多 批评 ， 但 它们 仍然 是 不 可 或 缺 的 工 
具 ， 在 分 析 和 数值 应 用 中 仍然 是 最 广泛 使 用 的 分 布 类 型 之 一 。 原 因 之 一 是 许多 金融 模 
型 直接 依赖 于 正 态 分 布 或 者 对 数 正 态 分 布 。 另 一 个 原因 是 许多 不 直接 依赖 (对 数 ) TE 
态 假 设 的 金融 模型 可 以 离散 化 ， 从 而 使 用 正 态 分 布 进行 近似 模拟 。 

作为 例子 ， 图 12-2 可 视 化 了 如 下 分 布 的 随机 数 : 

。 ”均值 为 0， 标准 差 为 1 的 标准 正 态 分 布 ; 

。 ”均值 为 100， 标准 差 为 20 的 正 态 分 布 ; 

。 ”自由 度 为 0.5 的 卡 方 分 布 ; 

。 入 值 为 1 的 泊 松 分 布 。 

图 12-2 展示 了 3 个 连续 分 布 和 1 个 离散 分 布 ( 泊 松 分 布 ) 的 结果 。 泊 松 分 布 用 于 模拟 ( 罕 
T) 外 部 事件 的 发 生 ， 例 如 某 种 金融 工具 价格 暴涨 或 者 外 部 冲击 。 下 面 是 生成 图 形 的 代码 ; 


In [10]: sample size = 500 










































































rnl = npr.standard_normal (sample size) 0 
rn2 = npr.normal(100, 20, sample size) @ 
rn3 = npr.chisquare (df=0.5, size=sample_size) ® 
rn4 = npr.poisson(lam=1.0, size=sample size) @ 
In [11]: fig, ((axl, ax2), (ax3, ax4)) = plt.subplots (nrows=2, ncols=2, 


figsize=(10, 8)) 
axl.hist(rnl, bins=25) 
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axl.set_title('standard normal") 
axl.set_ylabel ('frequency') 
ax2.hist(rn2, bins=25) 
ax2.set_title('normal(100, 20)') 
ax3.hist(rn3, bins=25) 
ax3.set_title('chi square") 
ax3.set_ylabel ('frequency') 
ax4.hist(rn4, bins=25) 
ax4.set_title('Poisson'); 


@ 标准 正 态 分 布 随机 数 。 
@ 正 态 分 布 随机 数 。 
© 卡 方 分 布 随机 数 。 
O 泊 松 分 布 随机 数 。 








standard normal normal(100, 20) 





-3 -2 -1 0 1 2 3 20 40 60 80 100 120 140 160 
chi square Poisson 
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0 
图 12-2 不 同 分 布 随机 样本 的 直方 图 


4 6 8 0 
NumPy 与 随机 数 
本 节 说 明 NumPy 是 一 个 强大 (甚至 不 可 或 缺 ) 的 Python 伪 随 机 数 生 
成 工具 。 创 建 包 含 这 些 数 值 的 ndarray 对 象 不 仅 方 便 ， 而 且 高 效 。 








inane 
3 4 





2 
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12.2 模拟 








蒙特 卡 洛 模拟 (MCS ) 是 金融 学 中 最 重要 的 数值 技术 之 一 〈 在 重要 性 和 使 用 广泛 程度 











上 也 许 没 有 “之 一 ”)。 这 主要 是 因为 它 是 最 灵活 的 数学 表达 式 


( 如 积分 ) 求 值 方法 ， 


特别 适合 于 金融 衍生 品 的 佑 值 。 但 是 ， 这 种 灵活 性 的 代价 是 相对 高 的 计算 负担 ， 估 算 








一 个 值 就 可 能 需要 数 十 万 次 甚至 数 百 万 次 的 复杂 计算 。 
12.2.1 随机 变量 


举 个 例子 ， 我 们 考虑 期 权 定 价 所 用 的 Black-Scholes-Merton 设置 (参见 第 3 章 )。 在 这 








种 设置 中 ， 在 今日 股票 指数 水 平 go 给 定 的 情况 下 ， 未 来 茶 个 日 








期 工 的 股票 指数 水 平 Sr 








可 根据 公式 12-1 得 出 。 
公式 12-1 以 Black-Scholes-Merton 设置 模拟 未 来 指数 水 平 


1 
S, =S, so。 -o° )r toa] 


变量 和 参数 的 含义 如 下 。 





Sr 
7 了 日 的 指数 水 平 。 
恒定 无 风险 短期 利率 。 
o 
5 的 恒定 波动 率 ( = 收益 的 标准 差 )。 
Z 


标准 正 态 分 布 随机 变量 。 


这 种 简单 金融 模型 的 参数 化 和 模拟 代码 如 下 ， 输 出 如 图 12-3 所 示 : 





In [12]: SO = 100 ® 


r= 0.05 @ 
sigma = 0.25 ® 
T= 2.0 0 
I = 10000 © 
STL = SO * np.exp((r - 0.5 * sigma ** 2) * T + 
sigma * math.sqrt(T) * npr.standard_normal(I)) © 
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In [13]: plt.figure(figsize=(10, 6)) 
plt.hist(ST1, bins=50) 
plt.xlabel('index level") 
plt.ylabel ('frequency'); 


@ 初始 指数 水 平 。 
@ 恒定 无 风险 短期 利率 。 


© 恒定 波动 率 因子 。 

O 以 年 表示 的 时 限 。 

@ 模拟 数量 。 

@ 模拟 本 身 通过 一 个 向 量化 表达 式 进行 , 离散 格式 使 用 npr .stanqard_normal () 函数 。 





800 


600 


frequency 
> 
© 
o 


200 





50 100 150 200 250 300 350 400 
index level 


12-3 (通过 npr.standard_normal () ) 统计 模拟 的 几何 布朗 运动 











从 图 12-3 中 可 以 看 出 , 公式 12-1 中 定义 的 随机 变量 呈 对 数 正 态 分 布 。 因 此 ,我 们 还 可 
以 尝试 使 用 npr. lognormal () 函数 直接 得 出 随机 变量 值 。 在 这 种 情况 下， 我 们 必须 
向 函数 提供 均值 和 标准 差 : 
In [14]: ST2 = SO * npr.lognormal((r - 0.5 * sigma ** 2) * T, 
sigma * math.sqrt(T), size=I) © 


In [15]: plt.figure(figsize=(10, 6)) 
plt.hist (ST2, bins=50) 
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plit.xlabel ("index level') 
plt.ylabel ('frequency'); 


@ 模拟 通过 一 个 向 量化 表达 式 进行 ， 离 散 格式 使 用 npr. lognormal () 函数 。 
结果 如 图 12-4 所 示 。 





800 


200 





50 100 150 200 250 300 350 400 
index level 


图 12-4 (通过 npr.1lognormal () ) 模拟 几何 布朗 运动 
比较 图 12-3 和 图 12-4， 可 看 出 它们 确实 很 相似 。 但 是 我 们 还 将 通过 比较 结果 分 布 的 统 
TTAB SR BE HEI 


事实 证 明 , scipy.stats 子 库 和 下 面 定 义 的 助手 函数 print_statistics(), 能 
有 效 地 比较 模拟 结果 的 分 布 特性 : 


In [16]: import scipy.stats as scs 











In [17]: def print_statistics(al, a2): 
''' Prints selected statistics. 


Parameters 


al, a2: ndarray objects 
results objects from simulation 
rer 
stal = scs.describe(al) © 
sta2 = scs.describe(a2) © 
print ('%14s 714s %14s' % 
('statistic', 'data set 1', 'data set 2')) 
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print (45 * "-") 
print ('%S14s %14.3f %14.3f' % ('size', stal[0], sta2[0])) 
print ('%14s %14.3f %14.3f' % ('min', stal[1][0], sta2[1][0])) 
print ('%14s %14.3f %14.3f' % ('max', stal[1][1], sta2[1][1])) 
print ('%S14s %14.3f %14.3f' % ('mean', stal[2], sta2[2])) 
print ('%S14s %14.3f %14.3f' % ('std', np.sqrt(stal[3]), 
np.sqrt (sta2[3]))) 
print ('%S14s %14.3f %14.3f' % ('skew', stal[4], sta2[4])) 
print ('%S14s %14.3f£ %14.3f' % ('kurtosis', stal[5], sta2[5])) 
In [18]: print_statistics(STl, ST2) 
statistic data set 1 data set 2 
size 10000.000 10000.000 
min 32.327 28.230 
max 414.825 409.110 
mean 110.730 110.431 
std 40.300 39.878 
skew 1.422 dS 
kurtosis 2.438 il 


O scs.describe () RNA HABE Bete 

显然 ， 两 个 模拟 结果 的 特性 很 类 似 ， 差 异 主要 是 由 于 模拟 中 所 谓 的 采样 误差 。 在 离散 
地 模拟 连续 随机 过 程 时 会 引入 离散 化 误差 .但 是 由 于 模拟 方法 的 特性 ， 这 种 误差 在 此 
不 起 任何 作用 。 


12.2.2 ”随机 过 程 


粗略 地 讲 ， 随 机 过 程 是 一 个 随机 变量 序列 。 从 这 个 意义 上 看 ， 我 们 应 该 预期 : 在 模拟 
一 个 过 程 时 ， 随 机 过 程 与 一 个 随机 变量 序列 的 重复 模拟 应 该 有 某 种 类 似 之 处 。 这 个 结 
论 大 体 上 是 正确 的 ， 但 是 随机 数 的 选取 一 般 不 是 独立 的 ， 而 是 依赖 于 前 几 次 选取 的 结 
果 。 不 过 ， 金 融 学 中 使 用 的 随机 过 程 通常 表现 出 马尔 科 夫 特性 一 一 主要 的 含义 是 : 明 
天 的 过 程 值 只 依赖 于 今天 的 过 程 状态 ， 而 不 依赖 其 他 任何 “历史 ”状态 ， 甚 至 不 依赖 
整个 路 径 历史 。 这 种 过 程 也 被 称 作 “ 无 记忆 过 程 “。 

























































































1， 几 何 布朗 运动 


现在 考虑 Black-Scholes-Merton 模型 的 动态 形式 , 这 种 形式 由 公式 12-2 中 的 随机 微分 
方程 (SDE) 描述 。 式 中 的 Z, 是 标准 布朗 运动 ，SDE 被 称 作 几何 布朗 运动 。$, 的 值 呈 
对 数 正 态 分 布 ，( 边 际 ) 收益 dS/S, 呈正 态 分 布 。 


公式 12-2 Black-Scholes-Merton 设置 中 的 随机 微分 方程 








dS=rS,dt+ 7 S,dZ, 
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公式 12-2 中 的 SDE 可 以 由 一 个 欧 拉 格式 精确 地 离散 化 ， 公 式 12-3 中 介绍 了 一 个 这 样 的 
格式 ， 其 中 At 是 固定 的 离散 化 间隔 ，z 是 标准 正 态 分 布 随机 变量 。 


公式 12-3 在 Black-Scholes-Merton 设置 中 动态 模拟 指数 水 平 





1 
S, = Sia so。 30 ar souls, 


和 以 前 一 样 ， 转 换 为 Python 和 NumPy 的 代码 很 简单 。 得 出 的 指数 水 平 终 值 仍然 呈 对 数 
正 态 分 布 ， 如 图 12-5 所 示 。 





frequency 
> 
© 
已 


300 





50 100 150 200 250 300 350 400 
index level 


12-5 ”动态 模拟 的 到 期 日 集合 布朗 运动 











前 4 个 统计 和 矩 和 静态 模拟 方法 得 出 的 结果 相当 接近 : 


In [19]: I = 10000 © 
M= 50 90 
dt =T/™M ® 
S = np.zeros((M+ 1, I)) @ 
s[0] = s0 © 
for t in range(1, M + 1): 
S[t] = S[t - 1] * np.exp((r - 0.5 * sigma ** 2) * dt + 
sigma * math.sqrt (dt) * npr.standard_normal(I)) © 


In [20]: plt.figure(figsize=(10, 6)) 
plt.-hist(S[-1], bins=50) 
plt.xlabel('index level') 
plt.ylabel ('frequency'); 
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@ 模拟 路 径 数量 。 

@ 离散 化 所 用 的 时 间 间 隔 数量 。 

© 以 年 表示 的 时 间 间 隔 长 度 。 

@ 保存 指数 水 平 的 二 维 ndarray 对 象 。 

O 时 间 :=0 (起 始点 ) 的 初始 值 。 

O 模拟 通过 半 向 量化 表达 式 进行 ; 循环 从 1= 1 的 时 点 开始 ，t =T 了 时 结束 。 

下 面 是 动态 模拟 和 静态 模拟 所 得 统计 量 的 对 比 。 图 12-6 展示 了 前 10 条 模拟 路 径 


In [21]: print_statistics(S[-1], ST2) 

















statistic data set 1 data set 2 
size 10000.000 10000.000 

min 27.746 28.230 

max 382.096 409.110 

mean 110.423 110.431 

std 39.179 39.878 

skew 1.069 tadis 
kurtosis 2.028 22 L7 


In [22]: plt.figure(figsize=(10, 6)) 
plt.plot(S[:, :10], lw=1.5) 
plt.xlabel ('time') 
plt.ylabel ('index level'); 
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12-6 动态 模拟 几何 布朗 运动 路 径 





12.2 ”模拟 














使 用 动态 模拟 方法 不 仅 可 以 像 图 12-6 那样 可 视 化 路 径 , 还 可 以 估算 美式 / 百 莫大 期 权 或 
者 收益 与 路 径 相关 的 期 权 价值 。 可 以 这 么 说 ， 你 所 得 到 的 是 全 动态 图 像 。 
2. 平方 根 扩散 


另 一 类 重要 的 金融 过 程 是 均值 回归 过 程 ， 用 于 建立 短期 利率 或 者 波动 性 过 程 的 模型 。 
流行 和 广泛 使 用 的 模型 之 一 是 平方 根 扩散 ， 由 Cox, Ingersoll 和 Ross ( 1985 ) 提出 。 公 
式 12-4 提供 了 对 应 的 SDE。 


公式 12-4 平方 根 扩散 的 随机 微分 方程 





























dx, =k(O—x,)dt + ovVxdZ, 
式 中 的 变量 和 参数 的 含义 如 下 。 


x, 
日 期 :的 过 程 水 平 。 
k 
均值 回归 因子 。 
0 
长 期 过 程 均值 。 
o 
恒定 波动 率 参数 。 
Z, 
标准 布朗 运动 。 





众所周知 ,x 的 值 呈 卡 方 分 布 。 但 是 , 如 前 所 述 , 许多 金融 模型 可 以 使 用 正 态 分 布 进行 
离散 化 和 近似 计算 〈 即 所 请 的 欧 拉 离 散 化 格式 )。 虽 然 欧 拉 格式 对 几何 布朗 运动 很 精 
确 ， 但 是 对 于 大 部 分 其 他 随机 过 程 则 会 产生 偏差 。 即 使 有 精确 的 格式 ( 很 快 就 会 介绍 
一 个 用 于 平方 根 扩散 的 格式 ) 但 因为 数值 化 和 /或 计算 ,使 用 欧 拉 格 式 仍 是 最 合适 的 。 
JEX s = t-At Fill x*=max(x,0), 公式 12-5 提出 了 一 种 欧 拉 格式 。 这 种 特殊 格式 在 文献 中 
通常 称 作 完 全 截断 。 

公式 12-5 ”平方根 扩散 的 欧 拉 离散 化 























x, =%, 


平方 根 扩散 的 特性 为 方便 和 现实 





x 的 值 严格 为 正 。 用 欧 拉 格式 离散 化 时 , 负 值 无 法 
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排除 。 这 就 是 人 们 处 理 的 总 是 原始 模拟 过 程 正 数 版 本 的 原因 。 





因此 在 模拟 代码 中 ， 需 








要 两 个 ndarray 对 象 ， 而 不 是 一 个 。 图 12-7 用 直方 图 直观 地 显示 了 模拟 结果 : 


In [23]: x0 = 0.05 © 
kappa = 3.0 @ 


theta = 0.02 © 


sigma = 0.1 9 


I = 10000 
M = 50 
dt =T/M 


In [24]: def srd euler(): 











xh = np.zeros((M + 1, I)) 

x = np.zeros_like (xh) 

xh[0] = x0 

x[0] = x0 

for t in range(1, M+ 1): 

xh[t] = (xh[t - 1] + 
kappa * (theta - np.maximum(xh[t - 1], 0)) * dt + 
sigma * np.sqrt(np.maximum(xh[t - 1], 0)) * 


math.sqrt (dt) 


x = np.maximum(xh, 0) 


return x 
x1 


ll 


srd euler () 


In [25]: plt.figure(figsize=(10, 6)) 
plt.hist(x1[-1], bins=50) 
plt.xlabel ('value') 





plt.ylabel ('frequency'); 











@ 初始 值 ( 例如 短期 利率 )。 
@ 均值 回复 因数 。 

© 长 期 均值 。 

O 波动 率 因数 。 

@ 基于 欧 拉 格式 的 模拟 。 





* npr.standard_normal(I)) ® 


12-8 展示 了 前 10 条 模拟 路 径 ， 说 明 得 出 的 平均 偏离 值 为 负 值 ( 因为 x。> 0 ) 并 收敛 


于 0=0.02: 


In [26]: plt.figure (figsize=(10, 6)) 


plt.plot(x1l[:, 


iTO] 


plt.xlabel ('time') 
plt.ylabel('index level'); 


lw=1 .5) 
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图 12-7 ”到 期 日 的 动态 模拟 平方 根 扩散 ( 欧 拉 格式 ) 
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12-8 动态 模拟 平方 根 扩散 路 径 ( 欧 拉 格式 ) 


40k 


2 > 
Oo 





公式 12-6 提出 了 基于 自由 度 df = 
平方 根 扩散 的 精确 离散 化 格式 。 


、 4ke™ 12 
非 中 心 参 数 mc = od ey 的 卡 方 分 布 x 


一 台 
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公式 12-6 平方 根 扩散 的 精确 离散 化 
_o(l-e*) al Ake! | 





X 
t Ak d ose) s 


上 述 离 散 化 格式 的 Python 实现 较为 复杂 ， 但 是 仍然 很 简洁 。 图 12-9 以 直方 图 形式 展 
示 了 这 个 精确 格式 的 模拟 输出 : 


In [27]: def srd_exact(): 
x = np.zeros((M + 1, I)) 
x[0] = x0 
for t in range(1, M + 1): 
df = 4 * theta * kappa / sigma ** 2 © 
c = (sigma ** 2 * (1 - np.exp(-kappa * dt))) / (4 * 
kappa) © 
nc = np.exp(-kappa * dt) / c * x[t - 1] © 
x[t] = c * npr.noncentral_chisquare(df, nc, size=I) © 
return x 


x2 = srd exact () 


In [28]: plt.figure(figsize=(10, 6)) 
plt.hist (x2[-1], bins=50) 
plt.xlabel ('value') 
plt.ylabel ('frequency'); 


@ (FA npr.concentral_chisquare () 函数 的 离散 化 格式 。 
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12-9 到 期 日 的 动态 模拟 平方 根 扩散 ( 精确 格式 ) 
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图 12-10 和 以 前 一 样 提 供 了 10 KRME, APES EPS, WONT 0: 


In [29]: plt.figure(figsize=(10, 6)) 
plt.plot(x2[:, :10], lw=1.5) 
plt.xlabel ('time') 
plt.ylabel('index level'); 
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12-10 ”动态 模拟 平方 根 扩 散 路 径 ( 精确 格式 ) 


比较 不 同方 法 中 的 主要 统计 量 可 以 看 出 ， 偏 置 欧 拉 格 式 确实 很 好 地 表现 出 了 理想 的 统 
计 属 性 : 


In [30]: print_statistics(x1l[-1], x2[-1]) 








statistic data set 1 data set 2 
size 10000.000 10000.000 

min 0.003 0.005 

max 0.049 0.047 

mean 0.020 0.020 

std 0.006 0.006 

skew 04529 0.532 
kurtosis 0.289 0.273 


In [31]: I = 250000 
Stime x1 = srd euler() 
CPU times: user 1.62 s, sys: 184 ms, total: 1.81 s 
Wall time: 1.08 s 
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In [32]: %time x2 = srd_exact() 
CPU times: user 3.29 s, sys: 39.8 ms, total: 3.33 s 
Wall time: 1.98 s 


In [33]: print_statistics(x1l[-1], x2[-1]) 
xl = 0.0; x2 = 0.0 





statistic data set 1 data set 2 
size 250000.000 250000.000 

min 0.002 0.003 

max 0.071 0.055 

mean 0.020 0.020 

std 0.006 0.006 

skew 0.563 0.579 
kurtosis 0.492 0.520 























然而 ， 在 执行 速度 方面 它们 有 较 大 的 差异 ， 这 是 因为 从 非 中 心 卡 方 分 布 中 采样 的 计算 
要 求 高 于 标准 正 态 分 布 的 采样 。 精 确 格式 大 约 需要 花费 2 倍 的 时 间 ， 而 结果 实际 上 和 
欧 拉 格式 相同 。 


3. 随机 波动 率 


Black-Scholes-Merton 模型 中 重要 的 简化 假设 之 一 是 恒定 波动 率 。 但 是 ， 波 动 率 一 般 来 
说 既 不 是 恒定 的 、 也 不 具有 确定 性 ， 而 是 随机 的 。 因 此 ，20 世纪 90 年 代 初 金融 模型 的 
重大 进步 之 一 是 所 谓 随 机 波动 率 模 型 的 推出 。 这 一 类 别 中 最 为 流行 的 模型 之 一 是 
Heston (1993 ) 模型 ， 如 公式 12-7 所 示 。 


公式 12-7 Heston 随机 波动 率 模型 的 随机 微分 方程 




















dS, = rS,dt + fv, S,dZ} 

dv, =k, (0, -v,)dt+o, „fv, dZ? 

dZ:dZ =p 
单一 变量 和 参数 的 均值 现在 很 容易 从 几何 布朗 运动 和 平方 根 扩散 的 讨论 中 得 出 ， 参 
数 p 代表 两 个 标准 布朗 运动 Z; 、Z; 之 间 的 瞬时 相关 性 。 这 使 我 们 可 以 解释 一 个 典型 事 
实 一 一 杠杆 效应 ， 该 效应 本 质 上 指 的 是 波动 性 在 困难 时 期 ( 衰退 市 场 ) 中 上 升 ， 而 在 
牛市 (上升 市 场 ) 时 下 降 。 
考虑 上 述 模型 的 参数 化 。 为 了 说 明 两 个 随机 过 程 之 间 的 相关 性 ， 我 们 需要 确定 相关 和 矩 
阵 的 柯 列 斯 基 分 解 : 


In [34]: SO = 100. 
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sigma = 0.1 
rho = 0.6 @ 
T= 1.0 

In [35]: corr_mat = np.zeros((2, 2)) 
corr mat[0, :] = [1.0, rho] 
corr mat[1l, :] = [rho, 1.0] 


cho_mat = np.linalg.cholesky(corr_mat) ® 


In [36]: cho mat ® 
Out [36]: array([[1l. , 0. ], 
[0.6, 0.8]]) 


O 初始 (瞬时 ) 波动 率 值 。 
@ 两 个 布 时 运动 之 间 的 固定 相关 系数 。 
© 柯 列 斯 基 分 解 与 结果 矩阵 。 


在 开始 模拟 随机 过 程 之 前 ， 我 们 为 两 个 过 程 生成 整 组 随机 数 ， 指 数 过 程 使 用 第 0 组 ， 
波动 性 过 程 使 用 第 1 组 。 对 于 以 平方 根 扩散 过 程 类 型 建 模 的 波动 性 过 程 ， 我 们 使 用 欧 
拉 格 式 ， 通 过 柯 列 斯 基 和 矩阵 考虑 相关 性 参数 : 


In [37]: M = 50 
I 





















































= 10000 
dt =T/M 
In [38]: ran num = npr.standard_normal((2, M+ 1, I)) © 
In [39]: v = np.zeros_like(ran_num[0]) 


vh = np.zeros_like(v) 


In [40]: v[0] = v0 
vh[0] = vO 











In [41]: for t in range(1, M+ 1): 

ran = np.dot(cho_mat, ran_num[:, t, :]) © 

vh[t] = (vh[t - 1] + 
kappa * (theta - np.maximum(vh[t - 1], 0)) * dt + 
sigma * np.sqrt(np.maximum(vh[t - 1], 0)) * 
math.sqrt (dt) * ran[1]) © 


In [42]: v = np.maximum(vh, 0) 
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@ 生成 三 维 随机 数 数据 集 。 
O 选择 相关 的 随机 数 子 集 ， 并 通过 柯 列 斯 基 和 矩阵 转换 。 
© 根据 欧 拉 格 式 模拟 路 径 。 
对 于 指数 水 平 过 程 ， 我 们 也 考虑 相关 性 ， 并 使 用 几何 布朗 运动 的 精确 欧 拉 格式 。 图 12-11 
用 直方 图 展示 了 到 期 日 指数 水 平 过 程 和 波动 性 过 程 的 模拟 结果 。 
In [43]: S = np.zeros_ like(ran num[0]) 


S[0] = SO 
for t in range(1, M+ 1): 





ran = np.dot(cho_mat, ran_num[:, t, :]) 
SIt] = S[t = 1] * np.exp((r = 0.5 * v[t]) * dt + 
np.sqrt(v[t]) * ran[0] * np.sqrt (dt) ) 


In [44]: fig, (axl, ax2) = plt.subplots(1l, 2, figsize=(10, 6)) 
axl.hist(S[-1], bins=50) 
axl.set_xlabel('index level") 
axl.set_ylabel ('frequency') 
ax2.hist(v[-1], bins=50) 
ax2.set_xlabel('volatility'); 
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这 说 明了 在 平方 根 扩散 中 使 用 欧 拉 格式 的 另 一 项 优势 , 相关 性 很 容易 一 致 性 地 处 理 ， 
这 因为 我 们 只 提取 标准 正 态 随机 数 。 没 有 一 种 混合 方法 ( 如 对 指数 使 用 欧 拉 格式 ， 对 
波动 性 过 程 使 用 基于 非 中 心 卡 方 分 布 的 精确 方法 ) 能 够 简单 地 实现 相同 的 效果 。 
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对 每 个 过 程 的 前 10 条 模拟 路 径 (UL 12-12) 的 检查 表明 ， 波 动 性 过 程 的 平均 漂移 值 
为 正 数 ， 和 预期 的 一 样 收敛 于 0 = 0.25: 


In [45]: print statistics(S[-1], v[-1]) 





statistic data set 1 data set 2 
size 10000.000 10000.000 

min 20.556 0.174 

max 517.798 0.328 

mean 107.843 0.243 

std 51.341 0.020 

skew 1.577 0.124 
kurtosis 4.306 0.048 


In [46]: fig, (axl, ax2) = plt.subplots(2, 1, sharex=True, 
figsize=(10, 6)) 
axl.plot(S[:, :10], lw=1.5) 
axl.set_ylabel('index level') 
ax2.plot(v[:, :10], lw=1.5) 
ax2.set_xlabel('time') 
ax2.set_ylabel ('volatility'); 
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图 12-12 ”模拟 随机 波动 率 模型 路 径 








最 后 ， 我 们 简短 地 看 看 两 个 数据 集 上 最 后 一 个 时 间 点 的 统计 量 ， 该 时 间 点 显示 指数 水 
平 过 程 有 一 个 相当 高 的 最 大 值 。 实 际 上 ,在 其 他 条 件 不 变 的 情况 下 ， 这 个 最 大 值 远大 
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于 固定 波动 率 下 几何 布朗 运动 所 能 达到 的 最 大 值 。 


4. 跳跃 扩散 
随机 波动 率 和 杠杆 效应 是 在 许多 市 场 上 都 能 发 现 的 典型 (经验 主义 ) 事实 。 另 一 种 典 
型 的 经 验 主义 事实 是 资产 价格 和 波动 率 的 跳跃 。1976 年 ，Merton 发 布 了 他 的 跳跃 扩散 
模型 ， 模 型 的 一 个 部 分 以 对 数 正 态 分 布 生成 跳跃 ， 改 进 了 Black-Scholes-Merton 设置 。 
风险 中 立 SDE 如 公式 12-8 TAN. 
公式 12-8 Merton 跳跃 扩散 模型 的 随机 微分 方程 

dS, =(r—1,)S,dt-+oS,dZ, + J ,S,AN, 


完整 性 起 见 ， 下 面 列 出 变量 和 参数 的 含义 。 





























S, 
1 日 的 指数 水 平 。 
1 
恒定 无 风险 短期 利率 。 
r, =A (e1) 
维持 风险 中 立 性 的 跳跃 漂移 校正 。 
o 
S 的 恒定 波动 率 。 
Z, 
标准 布朗 运动 。 
Jı 


t A Ske OA KER 
e = log +J,) = nf iosas 1,)- 22° o 


。 NN 是 标准 正 态 随 机 变量 的 累积 分 布 函 数 。 
N, 
密度 为 4 的 泊 松 分 布 。 
公式 12-9 介绍 了 一 种 用 于 跳跃 扩散 的 欧 拉 离散 化 公式 ， 其 中 zz 呈 标 准 正 态 分 布 ，” 呈 
密度 为 4 的 泊 松 分 布 。 
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公式 12-9 Merton 跳跃 扩散 模型 的 欧 拉 离 散 化 
2 % P 
S, = Sie (ey -0 /2)At+o VArzl 车 (e” Oz -Dy) 


有 了 上 述 的 离散 化 格式 ， 考 虑 下 面 的 数值 参数 : 


In [47]: SO = 100. 
r = 0.05 
sigma = 0.2 
lamb = 0.75 © 
mu = -0.6 @ 
delta = 0.25 © 
rj = lamb * (math.exp(mu + 0.5 * delta ** 2) - 1) @ 


In [48]: T = 1.0 


M= 50 
I = 10000 
dt =T /M 


o 跳跃 密度 。 

@ 跳跃 幅度 均值 。 

© 跳跃 波动 率 。 

O 漂移 校正 。 

这 一 次 , 我 们 需要 3 组 随机 数 。 注 意 , 图 12-13 中 的 第 二 个 波峰 ( 双 峰 频率 分 布 ) 是 由 
于 跳跃 出 现 的 : 


In [49]: S = np.zeros((M + 1, I)) 
S[0] = S0 
snl = npr.standard_normal((M + 1, I)) © 
sn2 = npr.standard_normal((M + 1, I)) © 
poi = npr.poisson(lamb * dt, (M + 1, I)) @ 
for t in range(1, M+ 1, 1): 
SIET = S[t - 1] * (np.exp((r - rj - 0.5 * sigma ** 2) * dt + 
sigma * math.sqrt(dt) * snl[t]) + 
(np.exp(mu + delta * sn2[t]) - 1) * 
poi[t]) © 


S [七 ] np.maximum(S[t], 0) 


ll 


In [50]: plt.figure(figsize=(10, 6)) 
plt.hist(S[-1], bins=50) 
plt.xlabel ('value') 
plt.ylabel ('frequency'); 


O 标准 正 态 分 布 随机 数 。 
@ 泊 松 分 布 随机 数 。 
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© 基于 精确 欧 拉 格式 的 模拟 。 





500 


400 


300 


frequency 


200 


100 


0 50 100 150 200 
value 
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在 前 10 条 模拟 指数 水 平 路 径 中 也 可 以 看 到 负数 的 跳跃 均值 ， 如 图 12-14 所 示 : 


In [51]: plt.figure(figsize=(10, 6)) 
plt.plot(S[:, :10], lw=1.5) 
plt.xlabel ('time') 
plt.ylabel ('index level'); 
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12-14 ”动态 模拟 跳跃 扩散 过 程 路 径 
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12.2.3 方差 缩减 

目前 为 止 ， 我们 得 到 的 结果 表现 出 来 的 统计 数值 和 预期 /理想 值 并 不 足够 接近 ， 这 不 仅 
是 因为 使 用 的 Python 函数 生成 的 是 伪 随 机 数 ， 还 因为 提取 的 样本 大 小 各 不 相同 。 例 如 ， 
你 可 能 预期 一 组 标准 正 态 分 布 随机 数 的 均值 为 0， 标准 差 为 1。 我 们 来 看 看 不 同 组 随机 

































































数 的 统计 量 。 为 了 让 比较 更 真实 ， 我 们 修改 随机 数 生成 器 的 种 子 值 : 
In [52]: print('%S15s %315s' % ('Mean', 'Std. Deviation") ) 
print(31-* t=) 
for iin range(1l, 31, 2): 
npr.seed (100) 
sn = npr.standard_normal(i ** 2 * 10000) 
print ('S15.12f %$15.12f' % (sn.mean(), sn.std())) 
Mean Std. Deviation 
0.001150944833 1.006296354600 
0.002841204001 0.995987967146 
0.001998082016 0.997701714233 
0.001322322067 0.997771186968 
0.000592711311 0.998388962646 
-0.000339730751 0.998399891450 
-0.000228109010 0.998657429396 
0.000295768719 0.998877333340 
0.000257107789 0.999284894532 
-0.000357870642 0.999456401088 
-0.000528443742 0.999617831131 
-0.000300171536 0.999445228838 
-0.000162924037 0.999516059328 
0.000135778889 0.999611052522 
0.000182006048 0.999619405229 
Tn. [S53] 20 1.0000 
Out [53]: 8410000 


结果 显示 ， 提 取 随机 数 的 个 数 越 多 ,统计 数值 就 “莫名 其 妙 ” 地 变 得 越 好 。 但 即使 在 
较 大 的 样本 ( 超过 800 万 个 随机 数 ) 中 ,统计 数值 也 不 等 于 理想 的 数字 。 

幸运 的 是 ， 可 以 使 用 易于 实现 的 通用 方差 缩减 方法 来 改善 (标准 ) 正 态 分 布 前 两 个 统 
计 和 矩 的 匹配 。 第 一 种 技术 是 使 用 对 偶 变量 。 这 种 方法 只 提取 理想 数量 一 半 的 随机 数 ， 

并 在 之 后 加 入 同一 组 随机 数 的 相反 数 。 例 如 ， 如 果 随 机 数 生 成 器 ( 即 对 应 的 Python 函 






































1 这 里 使 用 的 方法 的 灵感 来 自 大 数 法 则 。 一 一 原 注 
2 这 里 描述 的 方法 只 适用 于 对 称 中 位 数 为 0 的 随机 变量 , 比如 标准 正 态 分 布 随机 变量 , 我 们 在 本 书 自 
始 至 终 几乎 只 使 用 这 种 变量 。 原 注 
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数 ) 提取 了 0.5， 则 在 数据 集中 加 入 另 一 个 值 -0.5。 从 构造 上 
然 为 0。 


用 NumPy fy eKi2% np.concatenate () 可 以 简洁 地 实现 上 述 方法 ， 下 面 用 对 偶 变 量 重 
复 之 前 的 练 


说 ， 这 种 数据 集 的 均值 必 


Ke 


in [54]? -si npr.standard_normal (int (10000 / 2)) 
sn = np.concatenate((sn, -sn)) o 


In [55]: np.shape (sn) @ 
Out [55]: (10000, ) 


In [56]: sn.mean() ® 
Out [56]: 2.842170943040401e-18 











In [57]: print ('%15s %15s' % ('Mean', 'Std. Deviation") ) 
print (sI * Nom} 
for i in range(1, 31, 2): 
npr.seed (1000) 
sn = npr.standard_normal(i ** 2 * int(10000 / 2)) 
sn = np.concatenate((sn, -sn)) 
print ("S15.12f %15.12f" % (sn.mean(), sn.std())) 
Mean Std. Deviation 





-000000000000 1.009653753942 
-0.000000000000 1.000413716783 
-000000000000 1.002925061201 
-0.000000000000 1.000755212673 
-000000000000 1.001636910076 


l.000726758438 








-0.000000000000 1 
-0.000000000000 1.001621265149 
0.000000000000 1.001203722778 
-0.000000000000 1.000556669784 
-0.000000000000 1.000113464185 
-0.000000000000 0.999435175324 
-0.000000000000 0.999356961431 
-0.000000000000 0.999641436845 
-0.000000000000 0.999642768905 
-0.000000000000 0.999638303451 





O 连接 两 个 ndarray 对 象 。 

@ 得 到 所 需 的 随机 数 数量 。 

O 结果 均值 为 0 (在 标准 浮 点 算术 误差 之 内 )。 

你 立刻 就 会 注意 到 ， 这 种 方法 完美 地 更 正 了 第 一 个 统计 和 玫 一 一 这 并 不 令 人 惊 证， 原因 
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在 于 每 当 提取 数 n 时 ， 就 加 入 =n。 因为 有 了 这 样 的 配对 ， 所 以 整 组 随机 数 的 均值 就 会 





等 于 0。 然而 , 这 种 方法 对 第 二 个 统计 算 
减 技术 一 一 和 矩 匹配 ， 有 助 于 在 一 个 步 又 中 更 正 第 一 个 和 第 二 个 统计 和 矩 : 


In [58]: sn = npr.standard_normal (10000) 











In [59]: sn.mean() 
Out [59]: -—0.001165998295162494 


In [60]: sn.std() 
Out [60]: 0.991255920204605 


In [61]: sn new = (sn - sn.mean()) / sn.std() © 


In [62]: sn _new.mean () 
Out [62]: -2.3803181647963357e-17 





In [63]: sn _new.std() 
Out [63]: 0.9999999999999999 


O 在 一 个 步骤 中 校正 第 一 个 和 第 二 个 统计 矩 。 








标准 差 没 有 任何 影响 。 使 用 另 一 种 方差 缩 


从 每 个 随机 数 中 减 去 均值 并 用 每 个 随机 数 除 以 标准 差 ， 就 可 以 得 到 一 组 匹配 随机 数 ， 








( 几乎 ) 完美 地 匹配 理想 的 标准 正 态 分 布 的 第 一 和 第 二 统计 和 矩 。 





下 面 的 函数 利用 对 方差 缩减 技术 的 认识 ， 用 两 种 、 一 种 或 者 不 用 方差 缩减 搁 术 生成 用 








于 过 程 模拟 的 标准 正 态 随 机 数 : 


In [64]: def gen sn(M, I, anti_paths=True, mo_match=True) : 





''' Function to generate random numbers for simulation. 


Parameters 


M: int 


number of time intervals for discretization 


Ts Ane 

number of paths to be simulated 
anti_paths: boolean 

use of antithetic variates 
mo_math: boolean 

use of moment matching 


if anti_paths is True: 


sn = npr.standard_normal((M + 1, int(I / 2))) 


sn = np.concatenate((sn, -sn), axis=1) 
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sn = npr.standard_normal((M + 1, I)) 
if mo_match is True: 
sn = (sn - sn.mean()) / sn.std() 


return sn 


向 量化 与 模拟 

NumPy 的 向 量化 是 实现 Python 蒙特 卡 洛 模拟 算法 的 一 种 自然 、 简 洁 
且 高 效 的 方法 。 不 过 ， 使 用 NumPy 向 量化 通常 会 造成 更 大 的 内 存 占 
用 。 同 样 快速 的 替代 方法 请 参见 第 10 章 。 








12.3 A 


蒙特 卡 洛 模拟 的 最 重要 应 用 之 一 是 未 定 权 益 〈 期 权 、 衍 生 品 、 混 合 型 工具 等 ) 的 佑 值 。 
简单 地 说 ， 在 风险 中 立 的 世界 中 ， 未 定 权益 的 价值 是 风险 中 立 ( 拷 ) 测度 下 的 折 现 后 
预期 收益 。 这 是 所 有 风险 因素 股票、 指数 等 ) 偏离 无 风险 短期 利率 的 概率 测度 。 根 
据 资 产 定 价 基本 定理 ， 这 种 概率 测度 的 存在 等 价 于 套利 机 会 的 缺失 。 


金融 期 权 表示 在 规定 〈 行 权 期 ) 日 期 (欧式 期 权 ) 或 者 规定 时 期 〈 美 式 期 权 ) 内 ， 以 
规定 价格 〈 所 谓 行 权 价 ) 购买 (看涨 期 权 ) 或 者 出 售 (看跌 期 权 ) 指定 金融 工具 。 我 
们 首先 考虑 估 值 较为 简单 的 情 ; 欢 式 期 权 。 


12.3.1 欧式 期 权 


基于 某 种 指数 的 欧式 看 涨 期 权 到 期 日 收益 可 通过 公式 A(S) = max(S;-K,0) $F th , 其 
是 到 期 日 T 的 指数 水 平 ,，K 是 行 权 价格 。 若 给 定 相 关 随 机 过 程 (例如 几何 布朗 运 志 
的 风险 中 立 测 度 ， 或 者 在 一 个 完备 市 场 中 ， 这 种 权证 的 价格 由 公式 12-10 表示 。 


公式 12-10 ”风险 中 立 预 期 定价 














































































































中 Sr 
z) ) 





























Cy =e "ER(h(S1) =e" | hls)g(s)ds 





第 11 章 简略 介绍 了 如 何 通 过 蒙特 卡 洛 模 拟 计 算 积 分 。 接 下 来 会 使 用 这 种 方法 并 将 其 
应 用 到 公式 12-10 中 。 公 式 12-11 提供 了 欧式 期 权 的 对 应 蒙特 卡 洛 模拟 公式 , 其 中 5: 
到 期 日 的 第 i 个 模拟 指数 水 平 。 


公式 12-11 风险 中 立 蒙 特 卡 洛 模拟 公式 
Q =e” rons) 


现在 考虑 儿 何 布朗 运动 的 参数 化 和 估 值 函数 gom_mcs_stat () , 该 函数 仅 以 行 权 价格 








‘a 
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作为 参数 。 


这 里 只 模拟 到 期 日 的 指数 水 平 。 作 为 参考 ， 考 虑 行 权 价 玉 = 105 的 情况 : 





In [65]: SO = 100. 
r = 0.05 
sigma = 0.25 
T= 1.0 
I = 50000 
In [66]: def gbm mcs stat (K): 
''' Valuation of European call option in Black-Scholes-Merton 
by Monte Carlo simulation (of index level at maturity) 
Parameters 
K: float 
(positive) strike price of the option 
Returns 
C0: float 
estimated present value of European call option 
rrr 
sn = gen sn(1, I) 
# simulate index level at maturity 
ST = SO * np.exp((r - 0.5 * sigma ** 2) * T 
+ sigma * math.sqrt(T) * sn[1]) 
# calculate payoff at maturity 
hT = np.maximum(ST - K, 0) 
# calculate MCS estimator 
CO = math.exp(-r * T) * np.mean (hT) 
return CO 
In [67]: gbm mcs stat (K=105.) © 
Out [67]: 10.044221852841922 


@ 欧式 看 涨 期 权 的 蒙特 卡 洛 估算 函数 值 。 


接 下 来 ， 我 们 考虑 动态 模拟 方法 ， 除 了 看 涨 期 权 之 外 还 可 以 模拟 欧式 看 跌 














期 权 。 函数 








gbm_mcs_dyna () 实现 了 这 一 算法 。 这 段 代码 还 比较 相同 行 权 价 的 看 涨 和 看 跌 期 权 的 


价格 估算 : 


In [68]: M= 50 © 


In [69]: def gbm_mcs_dyna(K, option='call'): 


''' Valuation of European options in Black-Scholes-—Merton 
by Monte Carlo simulation (of index level paths) 
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Parameters 


K: float 
(positive) strike price of the option 
option : string 
type of the option to be valued ('call', '‘'put') 


Returns 


CO: float 


estimated present value of European call option 


dt =T/M 
# simulation of index level paths 
S = np.zeros((M + 1, I)) 
S[0] = S0 
sn = gen_sn(M, I) 
for t in range(1, M+ 1): 
S[t] = S[t - 1] * np.exp((r - 0.5 * sigma ** 2) * dt 
+ sigma * math.sqrt(dt) * sn[t]) 
# case-based calculation of payoff 





if option == 'call': 

hT = np.maximum(S[-1] - K, 0) 
else: 

hT = np.maximum(K - S[-1], 0) 


# calculation of MCS estimator 
CO = math.exp(-r * T) * np.mean (hT) 
return CO 


In [70]: gbm_mcs_dyna(K=110., option='call') @ 
Out [70]: 7.950008525028434 


In [71]: gbm_mcs_dyna(K=110., option='put') © 
Out [71]: 12.629934942682004 


O 离散 化 时 间 间 隔 数量 。 
@ 欧式 看 涨 期 权 的 蒙特 卡 洛 估算 函数 值 。 
© 欧式 看 跌 期 权 的 蒙特 卡 洛 估算 函数 值 。 


问题 是 , 这 些 基 于 模拟 的 估 值 方法 与 Black-Scholes-Merton 佑 值 公式 得 出 的 基准 值 相 比 
表现 如 何 ?” 为 了 找 出 这 种 差别 ， 我 们 利用 bsm_functions.py 模块 (参见 12.5 W ) 
中 的 Black-Scholes-Merton 分 析 性 欧式 看 涨 期 权 定价 公式 , 来 生成 一 定 范 围 行 权 价 的 对 
应 期 权 价值 /估算 。 首 先 ， 我 们 将 静态 模拟 方法 的 结果 与 精确 的 分 析 值 相 比 : 
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In [72]: from bsm_functions import bsm_call_value 


In [73]: stat_res = [] © 
dyna_res = [] © 
anal res = [] © 


k_list = np.arange(80., 120.1, 5.) @ 
np.random.seed (100) 


In [74]: for K in k list: 
stat_res.append(gbm_mcs_stat(K)) ® 
dyna_res.append(gbm_mcs_dyna(K)) ® 
anal_res.append(bsm_call_value(S0O, K, T, r, sigma)) © 


In [75]: stat_res = np.array(stat_res) 





© 
dyna_res = np.array (dyna _ res) @ 
© 


anal_res = np.array (anal res) 

@ 初始 化 收集 结果 的 空 列表 对 象 。 

@ 创建 一 个 ndarray 对 象 ， 包 含 行 权 价 范围 。 

© 模拟 /计算 并 收集 所 有 行 权 价 的 期 权 价值 。 

O 将 列表 对 象 转换 为 ndarray 对 象 。 

图 12-15 展示 了 比较 的 结果 。 所 有 估 值 的 差异 都 小 于 1% ， 正 负 的 差异 均 有 。 
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In [76]: 


Out [76]: 


plt.figure(figsize=(10, 6)) 

fig, (axl, ax2) = plt.subplots(2, 1, sharex=True, figsize=(10, 6)) 
axl.plot(k_list, anal_res, 'b', label="analytical') 
axl.plot(k_list, stat res, 'ro', label="static") 
axl.set_ylabel('European call option value') 


axl1.legend (loc=0) 





axl.set_ylim(bottom=0) 
wi = 1.0 
ax2.bar(k list - wi / 2, (anal_res - stat res) / anal res * 100, wi) 
ax2.set_xlabel('strike') 

ax2.set_ylabel ('difference in %') 

ax2.set_xlim(left=75, right=125); 

<Figure size 720x432 with 0 Axes> 








动态 模拟 和 估 值 方法 的 情况 也 类 似 ， 结 果 如 图 12-16 所 示 。 同 样 ， 所 有 佑 值 差异 小 于 
1%， 标 准 差 既 有 负数 也 有 正 数 。 作 为 一 般 原则 ， 蒙 特 卡 洛 估算 函数 的 质量 可 以 通过 调 





整 使 用 的 时 间 间 隔 M 和 模拟 路 径 数 了 控制 : 
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12-16 分析 性 期 权 价 值 与 蒙特 卡 洛 模拟 函数 ( 动态 模拟 ) 的 对 比 
In [77]: fig, (axl, ax2) = plt.subplots(2, 1, sharex=True, figsize=(10, 6)) 


axl.plot(k_list, anal_res, 'b', label='analytical') 
axl.plot(k_list, dyna_res, 'ro', label='dynamic') 
axl.set_ylabel ('European call option value") 

axl .legend (loc=0) 

axl.set_ylim(bottom=0) 

wi = 1.0 


ax2.bar(k_list - wi / 2, (anal_res - dyna res) / anal_res * 100, wi) 
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ax2.set_xlabel('strike') 
ax2.set_ylabel ('difference in %') 
ax2.set_xlim(left=75, right=125); 


12.3.2 ”美式 期 权 

美式 期 权 的 估 值 比 欧 式 期 权 的 更 复杂 。 在 这 种 情况 下 ， 必 须 解 决 最 优 截止 问题 ， 然 后 提出 
期 权 的 公允 价值 。 公 式 12-12 是 将 美式 期 权 作为 最 优 截止 问题 时 的 估 值 公式 。 该 问题 的 公式 
化 基于 离散 的 时 间 网 格 ， 以 便 用 于 数值 化 模拟 。 在 某 种 意义 上 ， 更 准确 地 说 ， 这 是 百 莫 大 
式 期 权 的 估 值 公式 。 时 间 间 隔 收 敛 于 0 长 度 时 , 百 划 大 期 权 的 价值 收敛 于 美式 期 权 的 价值 。 


公式 12-12 ”以 最 优 堆 止 问题 形式 出 现 的 美式 期 权 价 格 



































Y= sup e 7 Ee (h,(S,)) 


re{0,At,2At,---,T} 


我 们 接 下 来 描述 的 算法 叫 作 最 小 二 乘 蒙特 卡 洛 (LSM ) 方法 , 来 源 于 Longstaff 和 Schwartz 
(2001) 的 论文 。 可 以 看 出 ,任何 给 定 日 期 1 的 美式 ARAK) 期 权 价值 由 V(s) = 
max(h,s),C,(s)) (其 中 (8) = E2(e VS.) |S, = 9) A, 是 给 定 指数 水 平 S=s 下 的 
期 权 持 续 价值 。 

现在 考虑 我 们 在 M 个 等 长 ( Ar ) 的 时 间 间 隔 中 模拟 指数 水 平 的 1 条 路 径 ,。 定义 了, = OV as 
为 路 径 i 在 时 间 t 时 的 模拟 持续 价值 。 我 们 不 能 直接 使 用 这 个 数字 ， 因 为 它 意味 着 完美 
的 预期 。 但 是 ， 我 们 可 以 使 用 所 有 模拟 持续 价值 的 截面 ， 通 过 最 小 二 乘 回归 估算 ( 预 
期 ) 持续 价值 。 

bse? — $F Fie PRL by, d=1, =, D, 然后 由 回归 估算 公式 C,，, = om -b,(S,,) 算出 持 
续 价 值 ， 其 中 最 优 回归 参数 a 是 公式 12-13 中 最 小 二 乘 问题 的 解 。 

公式 12-13 ”美式 期 权 估 值 的 最 小 二 乘 回 归 


Ig < 
min Lyfr, -$ a, -bı G6)] 
Qir QD i=l d=1 


gbm_mcs_amer () 函数 用 于 实现 美式 看 涨 和 看 跌 期 权 的 LSM 算法 : 


In [78]: def gbm_mcs_amer(K, option='call'): 





















































''' Valuation of American option in Black-Scholes-—Merton 
by Monte Carlo simulation by LSM algorithm 


Parameters 





1 算法 的 细节 详 见 Hilpisch (2015 )。 一 一 原 注 
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80]: 


80] 


: gbm_mcs_amer(110., 


K float 


(positive) strike price of the option 


option : string 


type of the option to be valued ('call', 


CO : float 


"put ') 


estimated present value of European call option 


dt =T/M 
df = math.exp(-r * dt) 


# simulation of index levels 


S = np.zeros((M + 1, I)) 
S[0] = SO 


sn gen_sn(M, I) 


for t in range(1, M+ 1): 


S[t] = S[t - 1] * np.exp((r - 0.5 * sigma ** 2) * 
+ sigma * math.sqrt(dt) * sn[t]) 
# case based calculation of payoff 


if option == 'call': 

h = np.maximum(S - K, 
else: 

h = np.maximum(K - S, 


# LSM algorithm 
V = np.copy (h) 
for t in range(M - 1, 0, 


0) 


0) 


Siye 


reg = np.polyfit(S[t], V[t + 1] * df, 7) 


C= np.polyval (reg, 


S[{t]) 


V[t] = np.where(C > h[t], V[t + 1] * df, h[t]) 


# MCS estimator 
cO = df * np.mean(V[1]) 
return CO 


7.721705606305352 


gbm_mcs_amer(110., 


13.609997625418051 





option='call') 


option='"put') 


dt 


欧式 期 权 的 价值 处 于 美式 期 权 价值 的 下 界 。 两 者 的 差异 通常 叫 作 提前 行 权 溢价 。 接 下 
































来 ,我 们 比较 和 以 前 相同 的 行 权 价 范围 内 的 欧式 和 美式 期 权 价值 ， 以 估算 期 权 溢价 。 
这 次 选择 看 跌 期 权 : | 
1 由 于 没有 假定 任何 分 红 ( 考虑 到 指数 )， 看 涨 期 权 通 常 没 有 提前 行 权 溢价 ( 即 没 有 刺激 提前 行 权 的 
诱因 ), 一 一 原 注 
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In [81]: euro_res 


amer_res 
In [82]: k_list = np.arange(80., 120.1, 5.) 
In [83]: for K in k list: 


euro_res.append(gbm_mcs_dyna(K, 'put')) 
amer_res.append(gbm_mcs_amer(K, 'put')) 


In [84]: euro_res = np.array (euro res) 


amer_res = np.array(amer_res) 
图 12-17 说 明 对 于 所 选择 的 行 权 价 范围 ， 洲 价 可 能 最 高 达到 10% : 


In [85]: fig, (axl, ax2) = plt.subplots(2, 1, sharex=True, figsize=(10, 6)) 





axl.plot(k_list, euro res, 'b', label='European put') 
axl.plot(k_list, amer_res, 'ro', label='American put') 
axl.set_ylabel('call option value') 

axl1.legend (loc=0) 

wi = 1.0 

ax2.bar(k list - wi / 2, (amer_res - euro res) / euro res * 100, wi) 
ax2.set_xlabel('strike') 





ax2.set_ylabel('early exercise premium in %') 
ax2.set_xlim(left=75, right=125); 
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图 12-17 ”欧式 期 权 和 美式 期 权 蒙特 卡 洛 估算 值 的 对 比 





366 第 12 章 推断 统计 学 


12.4 风险 测度 


除了 估 值 之 外 ， 风 险 管理 是 随机 方法 和 模拟 的 另 一 个 重要 应 用 领域 。 本 节 介 绍 当今 金 
融 行业 中 非常 常用 的 两 个 风险 测度 的 计算 /估算 。 


12.4.1 风险 价值 


风险 价值 ( Value-at-risk，VaR ) 是 最 广泛 使 用 的 风险 测度 之 一 , 也 是 饱 受 争议 的 测度 之 
一 。 从 业 人 员 喜 欢 其 直观 性 ， 也 有 许多 人 对 其 有 限 的 尾部 风险 (很 快 将 会 详 加 介绍 ) 
捕捉 能 力 进 行 了 广泛 的 讨论 和 批评 一 一 主要 是 在 理论 依据 上 。 从 字面 上 看 ，VaR 是 一 
个 以 货币 单位 ( 如 美元 、 欧 元 、 日 元 ) 表示 的 数字 ， 表 示 在 给 定时 间 周 期 中 不 超过 某 
种 置信 和 度 (概率 ) 的 损失 ( 或 者 一 个 投资 组 合 、 股 票 头 寸 等 )。 


考虑 一 个 当日 价值 为 100 万 美元 的 股票 头寸 ,在 30 天 (1 个 月 ) A, ERREN 99% 的 
情况 下 VaR W 5 万 美元 。 这 个 VaR 数字 说 明 ，30 天 内 损失 不 超过 5 万 美元 的 概率 为 
99% (100 个 案例 中 有 99 个 )。 但是， 它 并 不 说 明 一 旦 损失 超过 5 万 美元 ， 损 失 的 规模 
会 达到 什么 程度 ; 也 就 是 不 说 明 如 果 最 大 损失 为 10 万 或 者 50 万 美元 时 , 这 种 特定 的 “高 
于 VaR 的 损失 ”概率 有 多 大 。 它 所 说 明 的 只 是 ,发 生 5 万 美元 或 者 更 大 损失 的 概率 为 1%。 


再 次 假定 使 用 Black-Scholes-Merton 设置 ， 考虑 如 下 的 参数 化 和 未 来 日 期 了 = 30/365 (BH 
30 天 长 的 一 段 时 期 ) 指数 水 平 的 模拟 。 为 了 估算 VaR 数字 ， 我 们 需要 模拟 的 绝对 利润 
和 相对 于 近日 持仓 价值 的 亏损 ， 并 对 其 加 以 排序 ， 排 序 顺序 为 从 最 严重 的 亏损 到 最 大 的 利 
Wo 图 12-18 展示 了 模拟 绝对 绩效 的 直方 图 : 
In [86]: SO = 100 

r = 0.05 

sigma = 0.25 

T = 30 / 365. 

I = 10000 























































































































In [87]: ST = SO * np.exp((r - 0.5 * sigma ** 2) * T + 
sigma * np.sqrt(T) * npr.standard_normal(I)) © 


In [88]: R gbm = np.sort(ST - S0) @ 


In [89]: plt.figure(figsize=(10, 6)) 
plt.hist(R gbm, bins=50) 
plt.xlabel('absolute return') 
plt.ylabel ('frequency'); 


@ 模拟 集合 布朗 运动 期 末 值 。 
@ 计算 每 次 模拟 的 绝对 利润 和 损失 并 排序 。 
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12-18 ”模拟 的 绝对 收益 和 损失 ( 几何 布朗 运动 ) 











有 了 包含 排序 结果 的 ndarray WAR, scs.scoreatpercentile() 函数 已 经 取得 
了 成 功 。 我 们 所 需要 做 的 就 是 定义 感 兴趣 的 百分比 ( 以 百分数 表示 )， 在 列表 对 象 percs 
中 ，0.1 转换 为 置信 和 度 100%-0.1%=99.9%。 在 本 例 中 ， 置 信和 度 为 99.9% 的 30 日 VaR 为 
18.8 个 货币 单位 ， 而 90% 置 信和 度 下 为 8.5 个 货币 单位 : 


In [91]: percs = [0.01, 0.1, 1., 2.5, 5.0, 10.0] 
var = scs.scoreatpercentile(R_gbm, percs) 
print ('%16s %16s' % ('Confidence Level', 'Value-at-Risk') ) 
print (33 * *=") 
for pair in zip(percs, var): 
print ('%S16.2f %16.3f' % (100 - pair[0], -pair[1])) 





Confidence Level Value-at-Risk 
99.99 21.814 
99.90 18.837 
99.00 15.230 
97.50 12.816 
95.00 10.824 
90.00 8.504 


作为 第 2 个 例子 ， 回 忆 一 下 Merton 的 跳跃 扩散 ， 这 是 一 种 动态 模拟 。 在 这 个 例子 中 ， 
利用 均值 为 负数 的 跳跃 成 分 ， 我 们 看 到 了 图 12-19 中 类 似 二 项 分 布 的 模拟 利润 /亏损 。 
从 正 态 分 布 的 角度 看 ， 左 侧 有 明显 的 “大 尾巴 ”: 
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In [92]: dt = 30. / 365 /M 
rj = lamb * (math.exp(mu + 0.5 * delta ** 2) - 1) 
In [93]: S = np.zeros((M + 1, I)) 
S[0] = SO 
snl = npr.standard_normal((M + 1, I)) 
sn2 = npr.standard_normal((M + 1, I)) 
poi = npr.poisson(lamb * dt, (M + 1, I)) 
for t in range(1, M+ 1, 1): 
S(t] = St = 1] * (np.exp((r = rj = 0.5 * sigma ** 2) * dt 
+ sigma * math.sqrt(dt) * snl[t]) 
+ (np.exp(mu + delta * sn2[t]) - 1) 
* poil[t]) 
S[{t] = np.maximum(S[t], 0) 
In [94]: R_jd = np.sort(S[-1] - S0) 
In [95]: plt.figure(figsize=(10, 6)) 
plt.hist(R jd, bins=50) 
plt.xlabel('absolute return') 
plt.ylabel ('frequency'); 
1200 
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12-19 ”模拟 的 绝对 收益 和 损失 ( 跳跃 扩散 ) 


对 于 这 种 过 程 和 参数 化 ,置信 和 度 90% 的 30 日 VaR 几乎 完全 相同 , 但 是 在 99.9% 置 信 度 





的 VaR 与 几何 布朗 运动 相 比 高 出 3 倍 多 (70 对 18.8 个 货币 单位 ): 
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In [96]: percs = [0.01, 0.1, 1., 2.5, 5.0, 10.0] 
var = scs.scoreatpercentile(R_jd, percs) 
print ('%S16s %16s' % ('Confidence Level', 'Value-at-—Risk") ) 
print (33, ®- t=T} 
for pair in zip(percs, var): 
print ('%S16.2£ %16.3f' % (100 = pair[0], -pair[1])) 





Confidence Level Value-at-Risk 
99.99 76.520 
99.90 69.396 
99.00 55.974 
97.50 46.405 
95.00 24.198 
90.00 8.836 











这 展示 了 标准 VaR ill BERTH BU A CE ae a Gy ZS is HS P PB DUB A YD o 


为 了 进一步 说 明 这 一 点 ， 我 们 最 后 以 图 形 方式 展示 两 种 情况 的 VaR 测度 以 便 比 较 。 如 
图 12-20 所 示 ， 在 典型 置信 度 范 围 内 的 VaR 测度 表现 完全 不 同 : 
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12-20 几何 布朗 运动 和 跳跃 扩散 的 风险 价值 











In [97]: percs = list (np.arange (0.0, 10.1, 0.1)) 
gbm var = scs.scoreatpercentile(R_gbm, percs) 
jd var = scs.scoreatpercentile(R_jd, percs) 


In [98]: plt.figure (figsize=(10, 6)) 
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plt 
plt 


PLE: 


plt 
plt 
plt 


.Plot (percs, gbm var, 'b', lw=1.5, label='GBM') 


.Plot (percs, jd var, 'r', lw=1.5, label='JD"') 


legend (loc=4) 

.Xxlabel('100 - confidence level [%]') 
.ylabel ('value-at-risk") 
-ylim(ymax=0.0); 


12.4.2 ”信用 价值 调整 
其 他 重要 风险 测度 有 信用 风险 价值 (CVaR ) 和 从 CVaR 中 派生 而 来 的 信用 价值 调整 


(CVA ),。 粗略 地 














，CVaR 是 对 手 方 可 能 无 法 履行 其 义务 所 引发 风险 ( 例如 ， 对 手 方 破 





j 


产 ) 的 一 个 测度 。 在 这 种 情况 下 ， 有 两 个 主要 的 假设 : 违约 概率 和 (平均 ) 损失 水 平 。 


举 个 具体 的 例子 ， 再 次 考虑 Black-Scholes-Merton 的 基准 设置 ， 并 使 月 











有 如 下 代码 中 的 参 


数 。 在 最 简单 的 情况 下 ， 可 以 考虑 国定 (平均 ) 损失 水 平 L 和 对 手 方 违约 (每年) 概 


Xp, 使 用 泊 松 分 布 , 违约 的 方案 可 以 月 





的 事实 : 
in [99]: 
In [100 
In [LOLTS 
in [t02]: 
In [103]: 
In [104]: 











so 


r i= 





= 100. 
0.05 


sigma = 0.2 


t= 
下 





D 


定义 损失 水 平 。 


义 违约 





o 

© BR 
© 模拟 违约 事件 。 
9 


100000 


= SO * np.exp((r - 0.5 * sigma ** 2) 


a 


有 以 下 代码 生成 , 这 里 考虑 了 违约 只 能 发 生 一 次 


+ sigma * np.sqrt(T) * npr.standard_normal (I) ) 


= 0.5 0 


= 0.01 @ 


= npr.poisson(p * T, I) © 


= np.where(D > 1, 1, D) @ 


将 违约 限制 为 1 次 。 


如 果 没 有 违约 ， 未 来 指数 水 平 的 风险 中 立 价值 应 该 等 于 资产 当日 现 值 ( 取决 于 数值 误 
差 造 成 的 差异 )。CVaR 和 经 过 信用 风险 调整 之 后 的 资产 现 值 可 以 这 样 计算 : 
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In [105] 
Out [105]: 


In [106]: 


Out [106]: 


In [107]: 


Out [107]: 


In [108]: 


Out [108]: 








: math.exp(-r * T) * np.mean(ST) © 


99.94767178982691 


CVaR = math.exp(-r * T) * np.mean(L * D * ST) @ 
CvaR @ 
0.4883560258963962 


SO_CVA = math.exp(-r * T) * np.mean((1 - L * D) * ST) © 
SO_CVA © 
99.45931576393053 


SO_adj = SO - CVaR @ 
S0_adj @ 
99.5116439741036 


O 7 日 的 贴现 平均 模拟 资产 价值 。 

@ CVaR 是 违约 情况 下 的 未 来 损失 贴现 平均 值 。 

O 模拟 违约 损失 调整 后 的 了 日 贴现 平均 模拟 资产 价值 。 
@ 模拟 CVaR 调整 后 的 当前 资产 价格 。 


在 这 个 特殊 的 模拟 示例 中 ， 我 们 观察 到 由 于 信用 风险 引起 的 大 约 1000 次 亏损 ， 这 是 假 
定 违约 概率 为 1% 、10 万 次 模拟 下 预期 的 结果 。 图 12-21 展示 了 由 于 违约 引起 亏损 的 完 
整 频率 分 布 。 当 然 ， 在 大 部 分 情况 下 ( 10 万 例 中 的 99 000 例 )， 没 有 发 现 亏 损 : 
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12-21 由 于 风险 中 立 预 期 违约 引起 的 亏损 ( 股票 ) 
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In [109]: np.count_nonzero(L * D * ST) © 
Out [109]: 978 
In [110]: plt.figure(figsize=(10, 6)) 
plt.hist(L * D * ST, bins=50) 
plt.xlabel('loss') 
plt.ylabel ('frequency') 
plt.ylim(ymax=175) ; 
@ 违约 事件 以 及 因此 引起 的 损失 事件 数量 。 
现在 考虑 欧式 看 涨 期 权 的 情况 。 它 在 行 权 价 100 时 的 价值 大 约 为 10.4 个 货 
相同 的 违约 概率 和 损失 水 平 假设 下 ，CVaR 大 约 为 5 分 : 
In [111]: K = 100. 
hT = np.maximum(ST - K, 0) 
In 12]: CO = math.exp(-r * T) * np.mean (hT) 0 
co 0 
Out[112]: 10.396916492839354 
In 13]: CVaR = math.exp(-r * T) * np.mean(L * D * hT) e 
CVaR @ 
Out [113]: 0.05159099858923533 
In 14]: CO_CVA = math.exp(-r * T) * np.mean((1 - L * D) 
CO_CVRA ® 
Out[114]: 10.34532549425012 
O 欧式 看 涨 期 权 的 蒙特 卡 洛 估算 值 。 





@ CVaR 是 违约 情况 下 的 未 来 损失 贴现 平均 值 。 
© 欧式 看 涨 期 权 的 蒙特 卡 洛 估算 值 ， 经 模拟 的 违约 损失 调整 。 
和 常规 资产 相 比 ， 期 权 有 不 同 的 特 怕 





























* hT) 


E。 我 们 只 看 到 略 低 于 500 次 因 违 约 引起 的 亏损 ， 











但 是 仍然 有 大 约 1000 次 违约 。 这 一 结果 源 于 这 样 的 习 











概率 很 大 。 


In [115]: np.count_nonzero(L * D * hT) © 
Out [115]: 538 

In 16]: np.count_nonzero(D) @ 
Out[116]: 978 

In 17]: I - np.count_nonzero (hT) © 
Out[117]: 44123 














PSE: 期 权 到 期 日 时 的 收益 为 0 的 


图 12-22 说 明 ， 期 权 的 CVaR 和 常规 资产 相 比 有 着 完全 不 同 的 频率 分 布 : 
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In [118]: plt. 
ehist(L * D * hT, bins=50) 
.xlabel('loss') 

-ylabel ('frequency') 


plt 
plt 
plt 
plt 


figure (figsize=(10, 6)) 


-ylim(ymax=350) ; 


O 由 于 违约 造成 损失 的 次 数 。 


@ 违约 次 数 。 


© 到 期 时 期 权 无 价值 的 次 数 。 
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12-22 ”由 于 风险 中 立 预期 违约 引起 的 亏损 ( 看 涨 期 权 ) 


12.5 Python 脚本 


下 面 介绍 与 Black-Scholes-Merton 模型 相关 的 核心 水 数 实现 , 这 些 函 数 用 于 欧式 (看涨 ) 
期 权 的 分 析 定 价 。 模 型 的 细节 参见 Black 和 Scholes (1973 ) 以 及 Merton (1973 ) 的 著 
Eo MEB 有 基于 Python 类 的 另 一 个 实现 。 


# 


# Valuation of European call options 
# in Black-Scholes-—Merton model 


# incl. vega function and implied volatility estimation 


# bsm_functions.py 


# 
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# (c) Dr. Yves J. Hilpisch 
# Python for Finance, 2nd ed. 
# 


def bsm call_value (S0, K, T, r, sigma): 
''' Valuation of European call option in BSM model. 
Analytical formula. 


Parameters 
SO: float 
initial stock/index level 
K: float 
strike price 
T: float 
maturity date (in year fractions) 
r: float 


constant risk-free short rate 
sigma: float 


volatility factor in diffusion term 


Returns 


value: float 


present value of the European call option 


ore 


from math import log, sqrt, exp 
from scipy import stats 


SO = float (SO) 








dl = (log(SO / K) + (r + 0.5 * sigma ** 2) * T) / (sigma * sqrt (T)) 
d2 = (log(SO / K) + (r - 0.5 * sigma ** 2) * T) / (sigma * sqrt (T)) 
# stats.norm.cdf --> cumulative distribution function 

# for normal distribution 

value = (SO * stats.norm.cdf(dl, 0.0, 1.0) - 


K * exp(-r * T) * stats.norm.cdf(d2, 0.0, 1.0)) 


return value 


def bsm_vega(S0O, K, T, r, sigma): 
''' Vega of European option in BSM model. 


Parameters 
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SO: float 


initial stock/index level 


K: float 

strike price 
T: float 

maturity date (in year fractions) 
r: float 


constant risk-free short rate 
sigma: float 


volatility factor in diffusion term 


vega: float 
partial derivative of BSM formula with respect 


to sigma, i.e. vega 


from math import log, sqrt 

from scipy import stats 

S0 = float (S0) 

dl = (log(S0 / K) + (r + 0.5 * sigma ** 2) * T) / (sigma * sqrt (T)) 
vega = SO * stats.norm.pdf(dl, 0.0, 1.0) * sqrt (T) 


return vega 


# Implied volatility function 


def bsm_call_imp_vol(S0O, K, T, r, CO, sigma est, it=100): 
''' Implied volatility of European call option in BSM model. 


Parameters 
S0: float 
initial stock/index level 
K: float 
strike price 
T: float 
maturity date (in year fractions) 
r: float 


constant risk-free short rate 
sigma_est: float 

estimate of impl. volatility 
it: integer 


number of iterations 
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Returns 


simga_est: float 
numerically estimated implied volatility 


one 


for i in range (it): 
sigma_est -= ((bsm_call_value(S0O, K, T, r, sigma_est) - CO) / 
bsm vega (S0, K, T, r, sigma_est) ) 


return sigma_est 


12.6 ”结语 


本 章 介 绍 对 蒙特 卡 洛 模拟 在 金融 学 中 的 应 用 起 重要 作用 的 方法 和 技术 ， 特 别 说 明了 如 
何 根据 不 同 的 分 布 法 则 生成 〈 伪 ) 随机 数 。 接 下 来 ,本章 继续 介绍 了 在 许多 金融 领域 
中 很 重要 的 随机 变量 及 随机 过 程 模拟 。 本 章 深 入 地 讨论 了 两 个 应 用 领域 : 欧式 和 美式 
期 权 的 估 值 以 及 风险 价值 和 信用 价值 调整 等 风险 测度 的 估算 。 

本 章 说 明 Python 和 NumPy 的 组 合 很 适合 于 实现 计算 要 求 很 高 的 任务 ， 如 通过 蒙特 卡 洛 
模拟 进行 的 美式 期 权 佑 值 。 这 主要 是 因为 NumPy 的 大 部 分 函数 和 类 用 C 语言 实现 , 使 
其 在 一 般 情况 下 对 纯 Python 代码 有 明显 的 速度 优势 。 由 于 向 量化 操作 , NumPy 还 具有 
代码 紧凑 和 易于 理解 的 好 处 。 
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Finance. 
直到 世纪 之 交 ， 通 过 蒙特 卡 治 模拟 估算 美 式 期 权 价值 的 有 效 方法 才 最 终 发 布 : 
e Longstaff, Francis, and Eduardo Schwartz (2001). “Valuing American Options by 





Simulation: A Simple Least Squares Approach.” Review of Financial Studies, Vol. 14, 
No. 1, pp. 113-147. 


下 面 的 图 书 广泛 、 深 入 地 介绍 了 信用 风险 的 处 置 方法 : 
e Duffie, Darrell, and Kenneth Singleton (2003). Credit Risk—Pricing, Measurement, and 





Management. Princeton, NJ: Princeton University Press. 
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WOU 


我 可 以 用 统计 学 证 明 一 切 ， 除 了 真相 。 


乔治 。 坎 宁 





统计 学 是 一 个 广泛 的 领域 。 该 领域 提供 的 工具 和 结果 已 经 成 为 金融 学 中 不 可 或 缺 的 一 
部 分 。 这 也 就 能 够 解释 为 什么 R 等 领域 专用 语言 在 金融 行业 中 流行 。 统 计 模 型 越 精细 、 
越 复杂 ， 易 于 使 用 和 高 性 能 的 计算 解决 方案 就 越 重 要 。 


只 用 本 书 














章 的 篇 幅 无 法 充分 说 明 统 计 领 域 的 丰富 和 广博 。 因 此 ， 如 其 他 章 一 样 ， 我 








们 将 重点 放 在 精 选 的 主题 上 ， 这 些 主题 极其 重要 ， 能 够 为 使 用 Python 完成 特定 任务 提 

供 好 的 起 点 。 本 章 有 以 下 4 个 重点 。 

JE Bt AIS 
许多 重要 金融 模型 ， 如 均值 -方差 投资 组 合理 论 和 资本 性 资产 定价 模型 (CAPM )， 
都 依赖 于 证 券 收 益 呈 正 态 分 布 这 一 假设 。 因 此 ， 本 章 介绍 一 些 方法 ， 测 试 给 定时 
间 序 列 的 正 态 性 。 

H RAEE 


可 以 






































各 现代 投资 组 合理 论 (MPT ) 看 作 金 融 统计 学 的 最 大 成 功 之 一 。 从 20 世纪 50 


年 代 初 开始 ， 由 于 先驱 者 Harry Markowitz 的 努力 ， 这 一 理论 开始 用 严格 的 数学 和 
统计 学 方法 ， 代 替 人 们 投资 金融 市 场 时 对 判断 和 经 验 的 依赖 。 在 这 个 意义 上 ， 它 
可 能 是 金融 学 中 第 一 种 真正 的 计量 方法 。 

N tR RTH 
从 概念 层面 上 ， 贝 叶 斯 统计 在 统计 学 中 引入 了 主体 信念 度 和 信念 度 更 新 ; 例如 ， 
对 于 线性 回归 ， 可 能 采取 回归 参数 统计 分 布 的 形式 代替 单 点 估算 〈 如 回归 线 截 距 
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和 和 斜率 J WS, USAT TE Sie a PST AE, ATT EAS Ep 
述 一 些 (高 级 ) 应 用 的 原因 。 


NEF T 


机 器 学 习 《〈 或 者 统计 学 习 ) 基于 高 级 统计 学 方法 ， 被 视 为 人 工 智能 (AI ) 学 科 的 
分 支 。 和 统计 学 本 身 类 似 ， 机 器 学 习 提 供 一 组 丰富 的 方法 和 模型 ， 以 便 从 数据 集 
中 学 习 ， 并 根据 所 学 建立 预测 。 不 同 的 学 习 算 法 有 很 大 的 区 别 ， 例 如 有 监督 学 习 
或 无 监督 学 习 。 算 法 解决 的 问题 类 型 也 不 同 ， 如 估算 或 者 分 类 。 本 章 介绍 的 例子 


属于 有 监督 学 习 分 类 。 


本 章 在 许多 方面 上 与 日 期 或 时 间 信 息 有 关 。 用 Python, NumPy 和 pandas 处 理 这 种 数据 
的 概述 参见 附录 A。 






































13.1 正 态 性 检验 
可 以 说 ， 正 态 分 布 是 金融 学 中 最 重要 的 分 布 之 一 ， 也 是 金融 理论 的 主要 统计 学 基础 之 
一 。 尤 其 是 下 面 这 些 金融 理论 基础 ， 在 很 大 程度 上 依赖 于 股票 市 场 收益 的 正 态 分 布 '。 
H RANEE 
当 股票 收益 呈正 态 分 布 时 ， 最 优化 投资 组 合 可 以 在 这 样 的 环境 中 选择 ;只 有 平均 
收益 、 收 益 的 方差 (或 者 波动 率 ) 以 及 不 同 股票 之 间 的 协 方差 与 投资 决策 ( 即 最 
优化 投资 组 合 构成 ) 相关 。 
KABA IEA 
同样 ， 当 股票 收益 呈正 态 分 布 时 ， 单 独 证 券 的 价格 可 以 很 好 地 用 和 某 种 大 规模 市 
场 指数 的 关系 表示 ; 这 种 关系 通常 用 单一 股票 与 市 场 指数 的 联动 指标 (8 ) 表示 。 
BE PBB 
有 效 市 场 指 的 是 价格 反映 所 有 可 用 信息 的 市 场 ， 其 中 的 “所 有 ”可 以 是 狭义 的 ， 
也 可 以 是 广义 的 (例如 “所 有 公开 信息 ”或 者 同时 包括 “只 为 个 人 所 有 ”的 信息 )。 
如 果 这 个 假设 成 立 ， 股 票 价格 波动 将 是 随机 的 ， 而 收益 呈正 态 分 布 。 
FYI GEL TE 
布朗 运动 是 随机 股票 ( 和 其 他 证 券 ) 价格 变动 的 标准 、 基 准 模型 。 著 名 的 Black- 
Scholes-Merton 期 权 定价 公式 使 用 几何 布朗 运动 作为 股票 在 一 段 时 间 内 随机 波动 




























































































1 男 一 个 核心 假设 是 线性 假设 。 例如 ,一般 来 说 , 我 们 假设 金融 市 场 的 需求 ( 如 股份 数量 ) 与 (购买 
股份 的 ) 价格 呈 线 性 关系 。 换 言 之, 我 们 一 般 假设 市 场 是 完全 流动 的 , 变化 的 需求 对 金融 工具 的 单 
价 没 有 影响 。 原 注 
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的 模型 ， 这 种 波动 造成 收益 呈正 态 分 布 。 
上 述 的 理论 只 是 支持 金融 学 中 正 态 性 假设 重要 性 的 一 部 分 原因 。 


oo 基准 案例 


为 了 给 进一步 的 分 析 提 供 基础 ， 我 们 从 几何 布朗 运动 开始 介绍 ， 它 是 金融 建 模 使 用 的 
n 才 程 之 一 。 关 于 几何 布 归 运动 中 的 路 径 特性 ， 说 明 如 下 。 


TE EXT BOM Gh, F 








a ~ ye Qh S, 
在 两 个 时 间 点 之 间 的 对 数 收益 率 =logS, —logS, (0<s<t) 呈正 态 分 布 。 


Xf HIE RAE 
在 任何 时 间 点 1> 0, 价值 S, EERST 
为 了 以 后 工作 ， 首先 需要 进行 绘图 设置 。 此 外 ， 我 们 需要 一 些 Python 库 ， 包 括 


scipy.stats fI statsmodels.api; 





In [1]: import math 

import numpy as np 

import scipy.stats as scs 
import statsmodels.api as sm 


from pylab import mpl, plt 





In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 


使 用 函数 gen_paths () 为 几何 布朗 运动 生成 蒙特 卡 洛 路 径 ( 参见 第 12 章 ): 


In [3]: def gen paths(S0, r, sigma, T, M, I): 








''!' Generate Monte Carlo paths for geometric Brownian motion. 


Parameters 


SO: float 

initial stock/index value 
r: float 

constant short rate 
sigma: float 


constant volatility 


T: float 
final time horizon 
M: int 


number of time steps/intervals 
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Is int 
number of paths to be simulated 


Returns 


paths: ndarray, shape (M + 1, I) 
simulated paths given the parameters 


dt =T/M 
paths = np.zeros((M + 1, I)) 
paths[0] = SO 


for t in range(1, M+ 1): 
rand = np.random.standard_normal (I) 
rand = (rand - rand.mean()) / rand.std() © 
paths[t] = paths[t - 1] * np.exp((r - 0.5 * sigma ** 
2) * dt + sigma * math.sqrt(dt) * rand) @ 


return paths 


o PLAC EMNE, 
@ 向 量化 的 几何 布朗 运动 欧 拉 离散 。 


模拟 基于 以 下 所 示 的 蒙特 卡 洛 模 拟 参 数 。 它 与 gen_paths () 函数 相 结 合 ， 生 成 25 万 
条 路 径 ， 每 条 路 径 有 50 个 时 间 步 。 图 13-1 展示 了 前 10 条 模拟 路 径 : 


In [4]: SO = 100. © 








r = 0.05 @ 
sigma = 0.2 © 
T=1.090 

M = 50 © 


I = 250000 9 
np.random. seed (1000) 


In [5]: paths = gen_paths (S0, r, sigma, T, M, I) 
In [6]: SO * math.exp(r * T) @ 
Out [6]: 105.12710963760242 


In [7]: paths[-1].mean() @ 
Out [7]: 105.12645392478755 








In [8]: plt.figure(figsize=(10, 6)) 
plt.plot(paths[:, :10]) 
plt.xlabel('time steps') 





plt.ylabel ("index level'); 
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o © © O © ©® © 


模拟 过 程 初始 值 。 
恒定 短期 利率 。 

恒定 波动 率 因 子 。 
以 年 表示 的 时 间 范 围 。 
时 间 间 隔 数 量 。 
模拟 过 程 数量 。 

预期 价值 和 平均 模拟 值 。 








120 


110 


100 


index level 


90 


80 


70 





20 


30 


time steps 


40 





50 





13-1 


几何 布朗 运动 的 模拟 路 径 


我 们 感 兴趣 的 是 主要 对 数 收益 率 的 分 布 。 下 面 的 代码 生成 一 个 包含 所 有 对 数 收益 率 的 
ndarray 对 象 ， 它 基于 模拟 路 径 。 这 里 展示 的 是 一 条 模拟 路 径 和 结果 对 数 收益 率 : 


in [9]; 
Out [9]: 


paths[:, 0].round(4) 


array([100. 
100 . 
106 . 
112. 





’ 
0145, 
4105, 
9766, 
«1502; 
.9185, 
.1585, 
0077, 
4254, 


ITa 


821 , 
.6589, 
.0575, 
+0225; 
.3453, 
+5539; 
.3304, 
.0034, 
.4271， 





98. 
105. 
102. 
112. 
115. 
109. 
108. 
L04. 


96 


5573, 
6643, 
0197, 
5476, 
0443, 
9687, 
4387, 
3964, 


.3386]) 








106. 
107. 
102. 
114. 
113. 
104. 
105 
101 


1546, 
1107, 
6052, 
5585, 
9586, 
9957, 


-5963, 


-0637, 


105.899 , 99.8363, 
108.7943, 108.2449, 
109.6419, 109.5725, 
109.942 , 112.6271, 
115.8831, 117.3705, 
108.0679, 105.7822, 
108.866 , 108.3284, 


98.3776, 


97.135 , 
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In [10]: log_returns = np.log(paths[1:] / paths[:-1]) 
In [11]: log_returns[:, 0].round(4) 
Out [11]: array([-0.022 , 0.0075, 0.0743, -0.0024, -0.059 , 0.0018, 0.0261, 
0.0289, 0.0136, 0.0156, -0.0051, -0.0171, -0.0516, 0.0095, 
0.0057, 0.0663, -0.0006, 0.0306, 0.0004, -0.0042, 0.0177, 
-0.0411， 0.0241, 0.0011, 0.0314, -0.0112, -0.0095, 0.0167, 
0.0128, 0.0047, -0.0645, -0.0053, -0.0463, 0.0288,-0.0214, 
-0.0059, -0.0079, 0.0386, -0.0266, 0.0305, —0.0049,-0.0123, 
-0.0094, -0.0153, -0.0324, -0.0269, -0.0127, -0.0178, 0.0104, 
-0.0009]) 
这 是 人 们 在 金融 市 场 上 可 能 经 历 的 :在 一 些 日 子 里 你 的 投资 获得 正 收益 ， 而 在 其 他 日 





子 里 ， 相 对 于 最 近 的 财富 状况 ， 你 损失 了 金钱 。 


print_statistics ( 





值 、 偏 斜 度 

















) 函数 是 scipy .stats 子 库 中 的 scs.describe() 
装 需 图 数 。 它 主要 以 更 易于 (人 类 ) 理解 的 方式 输出 
或 者 峰 度 等 统计 量 : 








函数 的 包 





给 定 〈 历史 或 者 模拟 ) 数据 集 均 





In [13]: def print_statistics (array): 
''' Prints selected statistics. 
Parameters 
array: ndarray 
object to generate statistics on 
| oe ae 
sta = scs.describe (array) 
print ('%14s %15s' % ('statistic', 'val 
print(30 * '-') 
print ('%S14s %15.5f' % ('size', sta[0] 
print ('%S14s %15.5f' % ('min', sta[1] [0 
print ('%14s %15.5f' % ('max', sta[1][ 
print ('%S14s %15.5f' % ('mean', sta[2] 
print ('%14s %15.5f' % ('std', np.sqrt ] ) ) ) 
print ('%S14s %15.5f' % ('skew', sta[4])) 
print ('%S14s %15.5f' 3 ('kurtosis', sta[5])) 
In [14]: print_statistics (log_returns.flatten() ) 
statistic value 
size 12500000.00000 
min -0.15664 
max 015371 
mean 0.00060 
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std 0.02828 
skew 0.00055 
kurtosis 0.00085 


In [15]: log_returns.mean() * M + 0.5 * sigma ** 2 © 
Out [15]: 0.05000000000000005 


In [16]: log_returns.std() * math.sqrt(M) @ 
Out [16]: 0.20000000000000015 


O 按照 伊 茧 公式 校正 的 年 化 对 数 收益 率 均 值 。 

O 年 化 波动 率 ， 也 就 是 对 数 收益 的 年 化 标准 差 。 

本 例 中 的 数据 集 包 含 1250 万 个 数据 点 ， 其 值 主要 处 于 -0.15 和 0.15 之 间 。 我 们 可 以 假 
设 预期 平均 年 化 收益 为 0.05， 标 准 差 〈 波动 率 ) 为 0.2。 数 据 集 中 的 年 化 值 不 完全 等 于 
ERE, 但 是 很 接近 ( 均值 乘 以 50, 标准 差 乘 以 V50 )。 匹配 良好 的 原因 之 一 是 在 提取 
随机 数 时 使 用 矩 匹配 来 减 小 方差 (参见 12.2.3 节 )。 

13-2 是 对 模拟 对 数 收 益 率 的 频率 分 布 以 及 参数 化 和 sigma 之 后 的 正 态 分 布 概率 
密度 函数 (PDF) 的 对 比 。 使 用 的 函数 是 scipy .stats 子 库 中 的 norm.pqf () 。 两 
考 明 显 很 相符 : 












































— pdf 
mm frequency 


frequency 





-0.15 -0.10 —0.05 0.00 0.05 0.10 0.15 
log return 











图 13-2 ”对 数 收益 率 和 正 态 密度 函数 的 直方 图 


In [17]: plt.figure(figsize=(10, 6)) 
plt.hist (log_returns.flatten(), bins=70, normed=True, 
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label='frequency', color='b') 

plt.xlabel('log return') 

plt.ylabel ('frequency') 

x = np.linspace(plt.axis() [0], plt.axis() [1]) 

plt.plot (x, scs.norm.pdf(x, loc=r / M, scale=sigma / np.sqrt(M)), 
'r', lw=2.0, label='pdf') © 

plt.legend(); 


O 绘制 假定 参数 ( 按照 时 间 间 隔 长 度 调 整 ) 的 PDF 图 表 。 

对 比 频率 分 布 ( 直方 图 ) 与 理论 化 PDF 不 是 图 形 化 “检验 ” 正 态 性 的 唯一 方法 。 所 谓 
的 分 位 数 -分 位 数 (quantile-quantile，QQ ) 图 也 很 适合 于 这 一 任务 。 在 这 种 图 表 中 , 我 
们 对 样本 分 位 数值 与 理论 分 位 数值 进行 对 比 。 对 于 正 态 分 布 的 样本 数据 集 ，QQ 图 如 图 
13-3 所 示 ， 绝 大 多 数 分 位 数值 ( 点 ) 位 于 一 条 直线 上 : 


In [18]: sm.qqplot (log_returns.flatten()[::500], line='s') 














plt.xlabel('theoretical quantiles') 
plt.ylabel('sample quantiles'); 
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图 13-3 ”几何 布朗 运动 对 数 收 益 率 的 分 位 数 -分 位 数 图 




















尽管 图 形 方法 很 有 吸引 力 , 但 是 它们 通常 无 法 代替 更 严格 的 测试 过 程 。 normality_tests () 
函数 组 合 了 3 种 不 同 的 统计 学 测试 ， 如 下 所 示 。 


GHEAMA (skewtest () ) 
测试 样本 数据 的 偏 斜 是 否 “ 正 态 ”( 也 就 是 值 足够 接近 0 )。 
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IEI MTE (kurtosistest () ) 
与 偏 斜 度 测 试 类 似 ， 测 试 样本 数据 的 峰 度 是 和 否 “ 正 态 ”( 同样 是 值 足 够 接近 0 )。 
JE AH MH (normaltest () ) 
组 合 其 他 两 种 测试 方法 ， 检 验 正 态 性 。 


测试 值 表明 ， 几 何 布朗 运动 的 对 数 收 益 率 确实 呈正 态 分 布 。 也 就 是 说 ， 它 们 的 P 值 为 
0.05 或 者 更 高 : 


In [19]: def normality tests (arr): 
''' Tests for normality distribution of given data set. 





























Parameters 


array: ndarray 
object to generate statistics on 


nee 


print ('Skew of data set %14.3f' % scs.skew(arr) ) 

print ('Skew test p-value %14.3f' % scs.skewtest (arr) [1]) 
print ('Kurt of data set %14.3f' % scs.kurtosis (arr) ) 
print ("Kurt test p-value %14.3f' % scs.kurtosistest (arr) [1]) 


print ('Norm test p-value %14.3f' % scs.normaltest (arr) [1]) 


In [20]: normality_tests(log_returns.flatten() ) 0 


Skew of data set 0.001 
Skew test p-value 0.430 
Kurt of data set 0.001 
Kurt test p-value 0.541 
Norm test p-value 0.607 


o 所 有 pp 值 都 明显 高 于 0.05. 


最 后 ， 我 们 检查 期 末 值 是 否 呈 正 态 分 布 。 这 也 归结 于 正 态 性 检验 ， 因 为 我 们 只 需要 应 
用 对 数 函 数 来 转换 数据 以 得 到 正 态 分 布 数据 (也 可 能 得 不 到 )。 图 13-4 中 绘制 了 正 态 
分 布 的 期 末 值 和 转换 后 的 值 (“对 数 指数 水 平 ”): 

In [21]: f, (axl, ax2) = plt.subplots(l, 2, figsize=(10, 6)) 


axl.hist (paths[-1], bins=30) 
axl.set_xlabel('index level") 











axl.set_ylabel('frequency') 
axl.set_title('regular data') 
ax2.hist (np.log(paths[-1]), bins=30) 
ax2.set_xlabel('log index level') 
ax2.set_title('log data') 
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regular data log data 
ga 30000 vd 
30000 
25000 
25000 
20000 
20000 
> 
Co 
8 
15000 
E 15000 
10000 
10000 
5000 5000 
0 0 
50 100 150 200 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 
index level log index level 








13-4 几何 布朗 运动 的 模拟 期 末 指 数 水 平 直方 图 
数据 集 的 统计 量 和 预期 的 表现 一 样 一 一 例如 , 均值 接近 105。 对 数 指数 水 平 值 的 偏 斜 度 
和 峰 度 接 近 于 0, H p 值 很 高 ， 这 表示 强烈 支持 正 态 分 布 假设 : 


In [22]: print_statistics (Paths[-1]) 
statistic value 





size 250000.00000 


min 42.74870 

max 233.58435 
mean 105.12645 

std 21.23174 

skew 0.61116 
kurtosis 0.65182 


In [23]: print_statistics (np.log(paths[-1]) ) 
statistic value 





size 250000.00000 


min 3.75534 

max 5.45354 

mean 4.63517 

std 0.19998 

skew -0.00092 
kurtosis =0 00327 
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In [24]: 


normality_tests (np.log(paths[-1]) ) 


Skew of data set =0 001 
Skew test p-value 0.851 
Kurt of data set -0.003 
Kurt test p-value 0.744 
Norm test p-value 0.931 














13-5 再 次 比较 频率 分 布 和 正 态 分 布 的 PDF， 两 者 相当 匹配 ( 当然 ， 这 在 意料 之 中 ): 








In [25]3 


plt.figure(figsize=(10, 6)) 

log_data = np.log(paths[-1]) 

plt.hist (log_data, bins=70, normed=True, 
label='observed', color='b') 
1t.xlabel('index levels') 

-ylabel ('frequency') 

= np.linspace(plt.axis() [0], plt.axis() [1]) 


Y XO 
a 


'r', lw=2.0, label='pdf') 
plt.legend(); 








lt.plot (x, scs.norm.pdf(x, log_data.mean(), log_data.std()), 
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图 13-5 ”几何 布朗 运动 对 数 指数 水 平和 正 态 密度 函数 的 直方 图 


图 13-6 表示 也 支持 对 数 指数 水 平 呈 正 态 分 布 的 假设 : 


In [26]: 


sm.qqplot (log_data, line='s') 
plt.xlabel('theoretical quantiles') 
plt.ylabel('sample quantiles'); 
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图 13-6 ”几何 布朗 运动 对 数 指数 水 平 的 分 位 数 -分 位 数 图 


正 态 性 
证 券 收益 的 正 态 性 假设 是 许多 重要 金融 理论 的 核心 。Python 提供 了 高 
效 的 统计 和 图 形 手 段 ， 以 测试 时 间 序 列 数据 是 否 为 正 态 分 布 。 





13.1.2 ”真实 数据 
本 节 将 分 析 4 个 历史 金融 时 间 序 列 ， 其 中 两 个 是 技术 型 公司 的 股票 ， 另 两 个 是 交易 型 
开放 式 基 金 (ETF )， 具 体 如 下 。 


e APPL.0: 苹果 公司 股价 。 
e ”MSFT.0: 微软 公司 股价 。 
e SPY: 标准 普尔 500 ETF. 





。 GLD: 标准 普尔 黄金 ETF. 
我 们 选择 的 数据 管理 工具 是 pandas ( 参见 第 8 章 ), 图 13-7 展示 了 一 段 时 间 中 的 规格 化 价格 : 


In [27]: import pandas as pd 














In [28]: raw = pd.read csv('../../source/tr eikon eod data.csv', 


index col=0, parse_dates=True) .dropna () 





In [29]: symbols = ['SPY', 'GLD', 'AAPL.O', 'MSFT.O"'] 
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In [30]: data = raw[symbols] 
data = data.dropna () 

In [31]: data.info() 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 2138 entries, 2010-01-04 to 2018-06-29 
Data columns (total 4 columns): 
SPY 2138 non-null float64 
GLD 2138 non-null float64 
AAPL.O 2138 non-null float64 
MSFT.O 2138 non-null float64 
dtypes: float64 (4) 
memory usage: 83.5 KB 

In [32]: data.head() 

Out [32]: SPY GLD AAPL.O MSFT.O 
Date 
2010-01-04 113.33 109.80 30.572827 30.950 
2010-01-05 113.63 109.70 30.625684 30.960 
2010-01-06 113.71 111.51 30.138541 30.770 
2010-01-07 114.19 110.82 30.082827 30.452 
2010-01-08 114.57 111.37 30.282827 30.660 

In [33]: (data / data.iloc[0] * 100).plot(figsize=(10, 6)) 

600 

500 

400 

300 

200 

100 

oe oe 9” oe” a a? Ry w W? 
Date 
13-7 金融 工具 在 一 段 时 间 内 的 规格 化 价格 
13.1 正 态 性 检验 391 








图 13-8 展示 了 金融 工具 对 数 回 报 率 的 直方 图 : 


In [34]: log_returns = np.log(data / data.shift(1)) 
log_returns.head () 


Out [34]: 
Date 
2010-01-04 
2010-01-05 
2010-01-06 
2010-01-07 
2010-01-08 


SPY 

NaN 
0.002644 -0. 
0.000704 0. 
0.004212 -0. 
0.003322 0. 


GLD AAPL.O MSFT.O 


NaN NaN NaN 
000911 0.001727 0.000323 
016365 -0.016034 -0.006156 
006207 -0.001850 -0.010389 
004951 0.006626 0.006807 


In [35]: log_returns.hist (bins=50, figsize=(10, 8)); 





-0.10 -0.05 0.00 
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13-8 金融 工具 对 数 回 报 率 直方 图 





接 下 来 考虑 时 间 序 列 数据 集 的 不 同 统计 量 。 峰 度 值 似乎 在 所 有 4 个 数据 集 上 都 与 正 态 


分 布 的 要 求 相去 甚 远 : 


In [36]: for sym in 


symbols: 


print ('\nResults for symbol {}'.format (sym) ) 
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print(30 '=") 


log_data = np.array(log_returns[sym] .dropna() ) 


print_statistics(log_data) © 


Results for symbol SPY 








statistic value 
size 2137.00000 

min -0.06734 

max 0.04545 

mean 0.00041 

std 0.00933 

skew -0.52189 
kurtosis 4.52432 


Results for symbol GLD 




















statistic value 

size 2137.00000 

min -0.09191 

max 0.04795 

mean 0.00004 

std 0.01020 

skew -0.59934 

kurtosis 5.68423 

Results for symbol AAPL.O 

statistic value 

size 2137.00000 

min -0.13187 

max 0.08502 

mean 0.00084 

std 0.01591 

skew -0.23510 

kurtosis 4.78964 

Results for symbol MSFT.O 

statistic value 

size 2137.00000 
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min =0.12103 


max 0.09941 
mean 0.00054 

std 0.01421 

skew -0.09117 
kurtosis 7.29106 


@ 金融 工具 时 间 序 列 的 统计 量 。 














IZ 





图 13-9 展示 了 SPY ETF 的 QQ 图 。 很 显然 , 样本 的 分 位 数值 不 在 一 条 直线 上 , 表明 “ 非 








正 态 性 "。 在 左 侧 和 右 侧 分 别 有 许 多 值 远 低 于 和 远 高 于 直线 。 换 言 之 ， 这 一 时 间 序 列 信 
息 出 现 了 “大 尾巴 ”( Fat tails )。 大 尾巴 一 词 指 的 是 〈 频 率 ) 分 布 中 观察 到 的 正 负 异常 
值 远 多 于 正 态 分 布 应 有 表现 的 情况 。 图 13-10 提供 了 Microsoft 公司 股票 的 数据 ， 可 以 
从 中 得 出 相同 的 结论 ， 分 布 中 也 出 现 了 明显 的 “大 尾巴 ”现象 : 


In 


[37]: 


‘oO o wawt O'S 





sm.qqplot (log_returns['SPY'].dropna(), line='s') 
1lt.title('SPY') 

lt.xlabel('theoretical quantiles") 
lt.ylabel('sample quantiles'); 

m.qqplot (log_returns['MSFT.O'].dropna(), line='s') 
lt.title('MSFT.O') 

lt.xlabel('theoretical quantiles") 








lt.ylabel('sample quantiles'); 








sample quantiles 


SPY 


0.04 

0.02 

0.00 
一 0.02 
一 0.04 P 
一 0.06 


3 2 1 0 1 党 3 
theoretical quantiles 











13-9 SPY 对 数 收益 率 分 位 数 -分 位 数 图 
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最 后 用 上 述 结 果 进 行 统计 正 态 性 检验 : 


In [39]: for sym in symbols: 





print ('\nResults for symbol {}'.format (sym) ) 
print (32 * '-') 

log_data = np.array(log_returns[sym] .dropna() ) 
normality_tests(log_data) © 


Results for symbol SPY 








Skew of data set -0.522 
Skew test p-value 0.000 
Kurt of data set 4.524 
Kurt test p-value 0.000 
Norm test p-value 0.000 
Results for symbol GLD 

Skew of data set -0.599 
Skew test p-value 0.000 
Kurt of data set 5.684 
Kurt test p-value 0.000 
Norm test p-value 0.000 


Results for symbol AAPL.O 
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Skew of data set -0.235 
Skew test p-value 0.000 
Kurt of data set 4.790 
Kurt test p-value 0.000 
Norm test p-value 0.000 
Results for symbol MSFT.O 

Skew of data set -0.091 
Skew test p-value 0.085 
Kurt of data set 7.291 
Kurt test p-value 0.000 
Norm test p-value 0.000 




















@ 金融 工具 时 间 序 列 的 正 态 性 检验 结果 。 


自始至终 ， 不 同 测试 的 p 值 都 为 0， 强 烈 否 决 不 同样 板 数据 集 呈正 态 分 布 的 测试 假设 。 
这 说 明 ， 股 票 市 场 收益 率 的 正 态 假设 一 一 例如 几何 布朗 运动 模型 中 的 假设 一 一 通常 无 
法 证 明 是 正确 的 ， 可 能 需要 使 用 可 以 产生 “大 尾巴 ”的 更 丰富 模型 〈 例 如， 跳跃 扩散 
模型 或 者 具备 随机 波动 率 的 模型 )。 
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均值 -方差 投资 组 合理 论 ( MPT ) 是 金融 理论 的 重要 基础 。 因为 这 一 理论 的 出 现 , 所 以 1990 
年 的 诺 贝尔 经 济 学 奖 授予 了 其 发 明 人 Harry Markowitz。 尽 管 这 种 方法 是 20 世纪 50 年 
代 提 出 的 '， 但 时 至 今日 它 仍然 是 一 种 金融 学 学 生 必 须要 学 习 并 在 实践 中 应 用 (往往 有 
或 大 或 小 的 改良 ) 的 理论 。 本 节 将 曾 述 这 种 理论 的 基本 原理 。 
由 Copeland, Wetson 和 Shastri (2005 ) 合 著 的 图 书 的 第 5 章 很 好 地 介绍 了 与 MPT 相关 
联 的 正式 主题 。 正 如 前 面 所 指出 的 ， 正 态 分 布 收益 率 假设 是 该 理论 的 基础 : 
只 观察 均值 和 方差 ,我们 必然 假定 没有 必要 用 其 他 统计 量 描述 期 末 财 富 的 分 
布 。 除 非 投 资 者 有 特殊 的 效用 函数 (二 次 效用 函数 )， 否 则 有 必要 假设 收益 率 
呈正 态 分 布 ， 正 态 分 布 用 均值 和 方差 就 可 以 完整 地 描述 。 


13.2.1 数据 


下 面 的 分 析 和 示例 使 用 了 和 前 面相 同 的 金融 工具 。MPT 的 基本 思路 是 通过 分 散 投资 实 
现 投资 组 合 风险 最 小 化 ， 或 者 在 指定 风险 水 平 下 的 组 合 收益 最 大 化 。 通 过 合理 地 组 合 
足够 大 量 的 资产 并 让 资产 多 样 化 ， 可 以 实现 预期 的 结果 。 为 了 表明 基本 思路 并 说 明 典 















































1 参见 Markowitz，Hany (1952): “Portfolio Selection”, Journal of Finance, 第 7 4%, 77-91 页 。 一 一 原 注 
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型 的 效果 ，4 种 资产 应 该 足够 了 。 图 13-11 展示 了 金融 工具 对 数 回报 率 的 频率 分 布 : 


In [40]: symbols = ['AAPL.O', 'MSFT.O', 'SPY', 'GLD'] © 
In [41]: noa = len(symbols) @ 
In [42]: data = raw[symbols] 


In [43]: rets 


np.log(data / data.shift (1) ) 








In [44]: rets.hist (bins=40, figsize=(10, 8)); 
@ 构成 投资 组 合 的 4 种 金融 工具 。 
@ 定义 的 金融 工具 数量 。 





AAPL.O GLD 
400 
400 
350 
350 
300 
300 
299 250 
200 200 
150 150 
100 100 
50 50 
0 - 0 i 
-0.10 -0.05 0.00 0.05 —0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 
MSFT.O SPY 
400 
400 350 
300 
300 
250 
0 
200 vei 
150 
100 100 
50 
0 = oon = om" pa n 
—0.10 -0.05 0.00 0.05 0.10 -0.06 -0.04 -0.02 0.00 0.02 0.04 








图 13-11 金融 工具 对 数 回报 率直 方 图 
投资 资产 的 协 方差 矩阵 是 整个 投资 组 合 选择 过 程 的 核心 部 分 。pandas 有 一 个 内 建 方 
法 ， 可 以 生成 协 方差 矩阵 ， 该 矩阵 应 用 相同 的 比例 调整 因子 : 


In [45]: rets.mean() * 252 © 
Out [45]: AAPL.O 0.212359 
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MSFT.O 0.136648 
SPY 0.102928 
GLD 0.009141 
dtype: float64 


In [46]: rets.cov() * 252 @ 
Out [46]: AAPL.O MSFT.O SPY GLD 





AAPL.O 0.063773 0.023427 0.021039 0.001513 
MSFT.O 0.023427 0.050917 0.022244 -0.000347 
SPY 0.021039 0.022244 0.021939 0.000062 
GLD 0.001513 -0.000347 0.000062 0.026209 


@ 年 化 平均 收益 率 。 
@ 年 化 协 方差 矩阵 。 


13.2.2 基本 理论 

下 面 ， 我 们 假定 投资 者 不 允许 在 某 种 金融 工具 上 建立 空头 头寸 。 只 人 允许 多 头头 十 意味 
着 投资 者 的 财富 将 在 可 用 资产 中 分 配 ， 所 有 头寸 均 为 多 头 〈 正 ) 头寸 ， 且 头 才 的 总 和 
为 100%。 例 如 , 可 以 在 每 种 工具 中 投入 相同 的 资金 量 ( 每 种 25% )。 下面 的 代码 生成 4 
个 0 和 1 之 间 的 随机 数 ， 然 后 对 这 些 数值 进行 规范 化 ， 使 所 有 值 的 总 和 为 1: 


In [47]: weights = np.random.random(noa) © 

















weights /= np.sum(weights) @ 


[In [48]: weights 
Out [48]: array([0.07650728, 0.06021919, 0.63364218, 0.22963135]) 











[In [49]: weights.sum() 
Out [49]: 1.0 


@ 随机 投资 组 合 权 重 。 

@ 将 其 规范 化 为 1 或 者 100%。 

现在 可 以 检查 资产 权重 总 和 确实 为 1; 也 就 是 说 jwi= 1， 其 中 7 了 是 资产 的 数量 ，wi> 0 
是 资产 的 权重 。 公 式 13-1 提供 在 给 定单 一 证 券 权 重 情况 下 的 预期 投资 组 合 收益 。 这 
个 预期 投资 收益 公式 假定 ， 历 史 平 均 表现 是 未 来 ( 预期 ) 表现 的 最 佳 预测 因素 。 在 公 
式 13-1 中 ,x 是 状态 相关 未 来 收益 ( 由 假定 为 正 态 分 布 的 收益 值 组 成 的 向 量 ), T 
是 证 券 i 的 预期 收益 。 最 后 ，w' 是 权重 向 量 的 转 置 ，% 是 预期 证 券 收 益 的 向 量 。 
公式 13-1 预期 收益 一 般 公式 











oO 
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= WE (n) 
=w"u 
将 其 转换 为 Python 代码 ， 得 到 如 下 的 代码 行 ， 已 包含 年 化 收益 值 ; 


In [50]: np.sum(rets.mean() * weights) * 252 © 
Out [50]: 0.09179459482057793 


@ 给 定投 资 组 合 权重 下 的 年 化 收益 率 。 

在 MPT 中 选择 的 第 二 个 对 象 是 预期 投资 组 合 方差 。 两 种 证 券 间 的 协 方差 定义 为 
Oj; = Oj = E(r, = 7; =) o 证 券 的 方差 是 其 与 自身 的 协 方差 : a = E((r, -my ) o 公 
式 13-2 提供 了 一 个 证 券 投 资 组 合 的 协 方差 矩阵 〈 假定 每 种 证 券 的 权重 均 为 1 )。 

公式 13-2 ”投资 组 合 协 方差 矩阵 





















































> On, Oy … Oz 

















利用 投资 组 合 协 方差 矩阵 后 ， 公 式 13-3 提供 了 预期 投资 组 合 方差 的 公式 。 


公式 13-3 ”预期 投资 组 合 方差 一 般 公式 





az =E((r-p)’) 


= >> WWO 


=w" w 
在 Python 中 , 以 上 公式 可 以 利用 NumPy 的 向 量化 功能 归结 为 一 行 代码 。np. qot () 郴 
数 给 出 两 个 向 量 /矩阵 的 点 乘 。T 属性 或 者 transpose () 方法 给 出 向 量 或 者 矩阵 的 转 
置 。 在 投资 组 合 方差 给 定 的 情况 下 ，( 预期 ) 投资 组 合 标准 差 ( 波动 率 ) 只 需要 计算 一 
次 平方 根 即 可 得 到 Co, = fo? ): 























In [51]: np.dot (weights.T, np.dot(rets.cov() * 252, weights)) © 
Out [51]: 0.014763288666485574 


In [52]: math.sqrt (np.dot (weights.T, np.dot(rets.cov() * 252, weights))) @ 
Out [52]: 0.12150427427249452 


@ 给 定 权 重 下 的 年 化 投资 组 合 方差 。 
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@ 给 定 权 重 下 的 年 化 投资 组 合 波动 率 。 





Python 与 向 量化 
MPT 示例 再 次 展示 了 Python 将 数学 概念 ( 如 投资 组 合 收益 或 者 投资 
组 合 方差 ) 转换 为 可 执行 向 量化 代码 的 效率 (第 1 章 的 论点 之 一 )。 








大 体 上 完成 了 均值 -方差 投资 组 合 选择 所 需 的 工具 集 。 投 资 者 最 感 兴趣 的 是 给 定 证 券 组 合 
的 风险 -收益 均衡 性 及 其 统计 学 特性 。 为 此 ， 我 们 进行 一 次 蒙特 卡 洛 模 拟 (参见 第 12 章 )， 
以 生成 较 大 规模 的 随机 投资 组 合 权 重 向 量 。 对 于 每 一 种 模拟 的 分 配 , 我 们 记录 得 出 的 
预期 投资 组 合 收益 和 方差 。 为 了 简化 代码 , 定义 两 个 函数 Port_ret () 和 port_vol (): 


In [53]: def port_ret (weights): 
return np.sum(rets.mean() * weights) * 252 








In [54]: def port vol (weights): 
return np.sqrt(np.dot (weights.T, np.dot(rets.cov() * 
252, weights) )) 


In [55]: prets = [] 
pvols = [] 
for p in range (2500): © 
weights = np.random.random(noa) @ 
weights /= np.sum(weights) © 
prets.append(port_ret (weights)) @ 
pvols.append(port_vol(weights)) @ 
prets = np.array(prets) 
pvols = np.array(pvols) 


@ 投资 组 合 权重 的 蒙特 卡 洛 模拟 。 
@ 将 结果 统计 量 收集 在 列表 对 象 中 。 








Hp Sry 


图 13-12 展示 了 蒙特 卡 洛 模拟 的 结果 。 除 此 之 外 ， 还 提供 了 定义 为 SR= = 的 夏普 


指数 ( 即 预期 投资 组 合 超额 收益 )， 也 就 是 投资 收益 率 超过 无 风险 短期 利率 ny 的 部 分 除 
以 预期 投资 组 合 标准 差 。 简 单 起 见 ， 假 定 ry = 0: 


In [56]: plt.figure (figsize=(10, 6)) 
plt.scatter(pvols, prets, c=prets / pvols, 














marker='o0', cmap='coolwarm') 
plt.xlabel('expected volatility') 
plt.ylabel ('expected return") 
plt.colorbar(label='Sharpe ratio'); 
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图 13-12 ”随机 投资 组 合 权 重 的 预期 收益 和 波动 率 





通过 图 13-12 可 以 明显 地 看 出 ， 从 均值 和 方差 考量 ， 并 不 是 所 有 权重 分 布 都 表现 良好 。 
例如 ， 对 于 固定 风险 水 平 (如 15% )， 多 种 组 合 都 表现 出 不 同 的 收益 。 作 为 投资 者 ， 人 
们 通常 对 固定 风险 水 平 的 最 大 收益 率 或 者 固定 收益 率 预 期 下 的 最 小 风险 感 兴趣 。 这 两 
种 投资 组 合 组 成 所 谓 的 有 效 边界 ， 这 是 本 节 后 面 想 要 得 到 的 结果 。 
13.2.3 ”最 优 投资 组 合 

最 小 化 函数 很 通用 ， 它 考虑 了 参数 的 (不 ) 等 式 约束 和 参数 的 范围 。 
我 们 从 夏普 指数 的 最 大 化 开始 。 从 形式 上 说 ， 最 小 化 夏普 指数 的 负 值 可 以 得 到 最 大 价 
值 和 最 优 投资 组 合 构成 。 约 束 是 所 有 参数 ( 权重 ) 的 总 和 为 1。 用 minimize 函数 的 约定 
表达 后 面 会 讲 到 (参见 minimize 函数 文档 ) '。 我 们 还 将 参数 值 (权重 ) 限制 在 0 和 1 
之 间 ， 这 些 值 以 多 个 元 组 组 成 的 一 个 元 组 形式 提供 给 最 小 化 函数 。 


优化 函数 调用 中 忽略 的 唯一 输入 是 起 始 参数 列表 ( 对 权重 的 初始 猜测 ) 我 们 简单 地 使 
用 平均 分 布 ; 


In [57]: import scipy.optimize as Sco 


























In [58]: def min_func_sharpe(weights): © 
return -port_ret (weights) / port_vol(weights) © 





1 np.sum(x)-1 的 替代 写法 是 np.sum(x) == 1， 这 种 写法 考虑 到 Python 的 布尔 值 True 等 于 1, 
False 等 于 0。 一 一 原 注 
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In [59]: cons = ({'type': 'eq', 'fun': lambda x: np.sum(x) - 1}) @ 
In [60]: bnds = tuple((0, 1) for x in range(noa)) ® 


In [61]: eweights = np.array(noa * [1. / noa,]) @ 
eweights @ 
Out [61]: array([0.25, 0.25, 0.25, 0.25]) 


In [62]: min func sharpe (eweights) 
Out [62]: —0.8436203363155397 


@ 需要 最 小 化 的 函数 。 
@ 等 式 约束 。 

© 参数 范围 。 
@ 等 权重 向 量 。 


调用 该 函数 不 仅 返回 最 优化 参数 值 ， 还 返回 其 他 很 多 信息 。 我 们 将 结果 存储 在 opts 
对 象 中 。 我 们 的 主要 兴趣 点 在 于 获得 最 优 投资 组 合 的 构成 。 为 此 ， 提 供 自己 感 兴趣 的 
键 值 (下 列 代码 中 是 x ) 来 访问 结果 对 象 : 
In [63]: %%time 
opts = sco.minimize(min_func_sharpe, eweights, 


method='SLSQP', bounds=bnds, 
constraints=cons) © 



































CPU times: user 67.6 ms, sys: 1.94 ms, total: 69.6 ms 
Wall time: 75.2 ms 


In [64]: opts @ 

Out [64]: fun: —0.8976673894052725 
jac: array([ 8.96826386e-05, 8.30739737e-05, -2.45958567e-04, 
1.92895532e-05]) 
message: ‘Optimization terminated successfully.' 


nfev: 36 
nit: 6 
njev: 6 


status: 0 
success: True 
x: array ([0.51191354, 0.19126414, 0.25454109, 0.04228123]) 


In [65]: opts['x'].round(3) ® 
Out [65]: array([0.512, 0.191, 0.255, 0.042]) 


In [66]: port ret (opts['x']).round(3) @ 
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Out [66]: 0.161 


In [67]: port_vol(opts['x']).round(3) © 
Out [67]: 0.18 


In [68]: port_ret(opts['x']) / port_vol(opts['x']) © 
Out [68]: 0.8976673894052725 


© 优化 ( 即 函 数 min_func_sharpe () 的 最 小 化 )。 
@ 优化 结果 。 
O 最 优 投资 组 合 权重 。 

O 得 出 的 投资 组 合 回报 率 。 

@ 得 出 的 投资 组 合 波动 率 。 

@ 最 大 夏普 指数 。 

接 下 来 ， 最 小 化 投资 组 合 的 方差 ， 这 与 波动 率 的 最 小 化 相同 : 


In [69]: optv = sco.minimize (port vol, eweights, 
method='SLSQP', bounds=bnds, 
constraints=cons) © 




















In [70]: optv 
Out [70]: fun: 0.1094215526341138 


jac: array ([0.11098004, 0.10948556, 0.10939826, 0.10944918]) 


message: ‘Optimization terminated successfully.' 


nfev: 54 
nite 9 
njev: 9 


status: 0 
success: True 


x: array ([1.62630326e-18, 1.06170720e-03, 5.43263079e-01, 


4.55675214e-01]) 


In [71]: optv['x'].round(3) 
Out[71]: array([0. , 0.001, 0.543, 0.456]) 


In [72]: port_vol (optv['x']) .round (3) 
Out [72]: 0.109 


In [73]: port ret (optv['x"']) .round (3) 
Out [73]: 0.06 




















In [74]: port ret (optv['x' / port_vol(optv['x']) 
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Out [74]: 0.5504173653075624 
@ 投资 组 合 波动 率 的 最 小 化 。 


这 次 ,投资 组 合 仅 由 3 种 金融 工具 构成 。 这 种 组 合 可 以 得 到 所 谓 的 绝对 最 小 方差 投资 
组 合 。 


13.2.4 ”有效 边 界 


所 有 最 优化 投资 组 合 一 一 即 目标 收益 率 水 平 下 波动 率 最 小 的 所 有 投资 组 合 〈 或 者 给 定 
风险 水 平 下 收益 率 最 大 的 所 有 投资 组 合 ) 一 一 的 求 取 都 和 上 述 最 优化 过 程 类 似 。 唯 一 
的 区 别 是 我 们 必须 循环 使 用 多 种 起 始 条 件 。 

我 们 所 采取 的 方法 是 固定 目标 回报 率 水 平 ， 得 出 每 种 水 平 下 导致 最 小 波动 率 值 的 组 合 
权重 。 对 于 优化 而 言 ， 这 产生 两 种 条 件 : 一 是 目标 收益 率 水 平 tret ， 另 一 个 是 投资 组 
合 权 重 的 总 和 。 每 个 参数 的 边界 值 保 持 不 变 。 在 不 同 目标 收益 率 水 平 (tret) 中 循环 
时 ， 最 小 的 一 个 条 件 会 变化 。 这 就 是 在 每 次 循环 中 更 新 条 件 字典 对 象 的 原因 : 


In [75]: cons = ({'type': 'eq', 'fun': lambda x: port_ret(x) - tret}, 







































































{'type': 'eq', 'fun': lambda x: np.sum(x) - 1}) © 


In [76]: bnds = tuple((0, 1) for x in weights) 





In [77]: %S%time 

trets = np.linspace(0.05, 0.2, 50) 

tvols = [] 

for tret in trets: 
res = sco.minimize(port_vol, eweights, method='SLSQP', 

bounds=bnds, constraints=cons) @ 

tvols.append(res['fun']) 

tvols = np.array(tvols) 

CPU times: user 2.6 s, sys: 13.1 ms, total: 2.61 s 

Wall time: 2.66 s 


@ 有 效 边 界 的 两 个 绑 定 约束 。 

@ 不 同 目标 回报 率 的 组 合 波动 率 优化 。 

图 13-13 展示 了 最 优化 的 结果 。 交叉 表示 给 定 某 个 目标 收益 率 的 最 优 投资 组 合 ; 小 点 和 
以 前 一 样 表示 随机 组 合 。 此 外 ， 该 图 还 出 现 了 两 个 较 大 的 星 号 : 一 个 表示 最 小 波动 率 / 
方差 投资 组 合 〈 最 左 侧 的 组 合 )， 另 一 个 表示 具有 最 大 夏普 指数 的 投资 组 合 : 


In [78]: plt.figure(figsize=(10, 6)) 
plt.scatter(pvols, prets, c=prets / pvols, 

















marker='.', alpha=0.8, cmap='coolwarm') 
plt.plot(tvols, trets, 'b', lw=4.0) 
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plt.plot (port_vol(opts['x']), port_ret(opts['x']), 
'y*', markersize=15.0) 
plt.plot (port_vol(optv['x']), port_ret(optv['x']), 
'rx', markersize=15.0) 


t.xlabel('expected volatility') 


fe 
c 


t.ylabel('expected return') 


2 
c 








plt.colorbar (label='Sharpe ratio') 
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图 13-13 给 定 收益 率 水 平 的 最 小 风险 投资 组 合 ( 有 效 边界 ) 











有 效 边 界 由 所 有 收益 率 高 于 绝对 最 小 方差 投资 组 合 的 最 优 投资 组 合 构成 。 这 些 投资 组 
合 在 给 定 某 一 风险 水 平 的 预期 收益 率 上 优 于 其 他 所 有 投资 组 合 。 


13.25 资本 市 场 线 

除了 股票 等 高 风险 证 券 或 者 商品 ( 如 黄金 ) 之 外 ， 通常 有 一 种 普遍 的 无 风险 投资 机 会 : 
现金 或 者 现金 账户 。 在 理想 化 的 世界 中 ,保存 在 大 银行 现金 账户 中 的 资金 可 以 认为 是 
无 风险 的 (例如 ， 通 过 公共 存款 保险 计划 )。 这 种 无 风险 投资 的 缺点 是 通常 只 能 得 到 很 
少 的 收益 ， 有 时 接近 于 0。 

然而 ， 考 虑 这 些 无 风险 资产 可 以 显著 加 强 投资 者 的 有 效 投资 机 会 。 基 本 思路 是 ， 投 资 
者 首先 确定 高 风险 资产 的 一 个 有 效 组 合 ， 然 后 在 组 合 中 加 入 无 风险 资产 。 通 过 调整 投 
资 于 无 风险 资产 中 的 财富 比例 ， 有 可 能 实现 任何 风险 -收益 均衡 性 ， 这 些 配 置 位 于 (风险 
-收益 空间 中 ) 无 风险 资产 和 有 效 投资 组 合 之 间 的 直线 上 。 
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(在 许多 选项 中 ) 使 用 哪 一 个 有 效 投资 组 合 来 进行 最 优化 风格 的 投资 呢 ? 选择 有 效 边界 
切线 恰好 通过 无 风险 投资 组 合 风险 -收益 点 的 投资 组 合 。 例如 , 考虑 无 风险 利率 r= 0.01 
的 情况 。 我 们 寻找 有 效 边界 上 切线 穿 过 风险 -收益 空间 上 的 点 ( oy, ry) = (0, 0.01) 的 
投资 组 合 。 

为 了 进行 下 面 的 计算 , 我 们 需要 一 个 函数 通 近 和 有 效 边界 的 一 阶 导 数 。3 次 样 条 插值 提 
供 了 这 种 可 导 函 数 副 近 ( 参见 第 11 章 )。 对 于 样 条 插值 ， 我 们 只 使 用 有 效 边界 中 的 投 
资 组 合 。 通 过 这 条 数值 化 路 径 ， 最终 可 以 为 有 效 边界 定义 一 个 连续 可 导 函 数 E (x) 和 对 
应 的 一 阶 导 数 函 数 df (x): 


In [79]: import scipy.interpolate as sci 















































In [80]: ind = np.argmin(tvols) © 
evols = tvols[ind:] @ 
erets = trets[ind:] @ 


In [81]: tck = sci.splrep(evols, erets) ® 


In [82]: def f(x): 


''' Efficient frontier function (splines approximation). ''' 


return sci.splev(x, tck, der=0) 
def df (x): 


''' First derivative of efficient frontier function. ''' 


return sci.splev(x, tck, der=1) 
@ 最 小 波动 率 投资 组 合 的 指数 头寸 。 
@ 相关 的 组 合 波动 率 和 回报 率 值 。 
© 这 些 值 上 的 3 次 样 条 插值 。 


现在 要 得 出 的 是 线性 函数 Ko = atb* x， 这 代表 着 穿 过 风险 -收益 空间 中 无 风险 资产 并 
与 有 效 边 界 相 切 的 一 条 直线 。 公 式 13-4 描述 了 函数 t(x) 必 须 满 足 的 3 个 条 件 。 


公式 13-4 资本 市 场 线 的 数学 条 件 


tx)=a+b'x 














1(0) = ry ° Q= 六 

tx)=fx) © a+b'x=f(x) 

to =fQ & b=f (x) 
由 于 我 们 没有 有 效 边界 的 封闭 公式 或 者 它 的 一 阶 导数 ， 所 以 必须 以 数值 化 方式 求 得 公 
式 13-4 中 方程 组 的 解 。 为 此 , 我 们 定义 一 个 Python 函数 , 返回 给 定 参数 集 p = (a, b, x) 
下 的 全 部 3 个 方程 式 的 值 。 
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scipy.optimize 中 的 sco. fsolve () 函数 能 够 解 这 类 方程 组 。 我 们 提供 初始 参数 ， 
以 及 equations () 函数 。 注 意 , 优化 的 成 败 可 能 取决 于 初始 参数 ， 因 此 必须 小 心 选择 
这 些 参 数 一 一 通常 需要 结合 合理 的 猜测 ， 并 反复 尝试 : 


In [83]: 
In [84 
In [85 
Out [85 
In [86 
Out [86 


@ 按照 给 定 初 始 值 解 方程 。 








def equations(p, rf=0.01 


eql = rf - p[0] © 





eq2 = rf + p[1] * p[2] - flp[2]) © 





eq3 = p[1] - df(p[2]) © 
return eql, eq2, eq3 


opt = sco.fsolve (equations, [0.01, 0.5, 0.15]) @ 
opt © 
array ([0.01 , 0.84470952, 0.19525391]) 


: np.round (equations (opt), 6) 


array([ 0., 0., -0.]) 


@ 描述 资本 市 场 线 (CML) 的 方程 式 。 


© 最 优 参数 值 。 
@ 方程 式 值 都 为 0。 

















r= 0.01 ) 的 最 优化 投资 组 合 。 


In [87]: 


pl 


x 


ZOD OD 





B 





. figure (figsize=(10, 6)) 


9 


t.scatter(pvols, prets, c=(prets - 0.01) / pvols, 


marker='.', cmap='coolwarm') 


.Plot (evols, erets, 'b', 
= np.linspace(0.0, 0.3) 
.Plot (cx, opt[0] + opt[1] 
.Plot (opt [2], f(opt[2]), 
.grid (True) 


lw=4.0) 


* cx, 'r', lw=1.5) 


'y*', markersize=15.0) 


.axhline (0, color='k', ls='--', lw=2.0) 


.axvline(0, color='k', ls='--', lw=2.0) 


.xlabel ('expected volatility') 


.ylabel ('expected return' 


) 


.colorbar (label='Sharpe ratio') 





最 优 投资 组 合 的 权重 如 下 ， 该 组 合 只 包含 4 种 资产 中 的 3 Ph: 


In 


[88]: 


cons = ({'type': 'eq', 'fun': 
{Ptypée®s: Seq", "fun" 
res = sco.minimize(port_vol, 


图 13-14 以 图 形 方式 提供 了 结果 : 星 号 代表 有 效 边界 中 切线 穿 过 无 风险 资产 点 〈0， 


lambda x: port ret (x) - f(opt[2])}, 


lambda x: np.sum(x) - 1}) 
eweights, method='SLSOQP', 


0 
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bounds=bnds, constraints=cons) 


In [89]: res['x'].round(3) @ 
Out [89]: array([0.59 , 0.221, 0.189, 0. J) 


In [90]: port ret (res['x']) 
Out [90]: 0.1749328414905194 


In [91]: port_vol(res['x"']) 
Out [91]: 0.19525371793918325 

















In [92]: port_ret(res['x']) / port_vol(res['x']) 
Out [92]: 0.8959257899765407 


O 相 切 投资 组 合 (图 13-14 中 的 金色 星 号 ) 的 绑 定 约束 。 
@ 这 个 特殊 投资 组 合 的 权重 。 
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13-14 ”无 风险 利率 为 1% 时 的 资本 市 场 线 和 相 切 的 投资 组 合 ( 星 号 ) 











13.3” 贝 叶 斯 统计 


近年 来 ， 贝 叶 斯 统计 已 经 成 为 实证 金融 学 的 基石 。 本 章 无 法 覆盖 该 领域 的 所 有 概念 。 
因此 ， 在 必要 时 应 该 参考 Geweke (2005) 的 教科 书 来 了 解 一 般 的 人 门 知 识 ， 利 益 驱 动 
者 应 该 参考 Rachev ( 2008 ) 的 教科 书 。 
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13.3.1 贝 叶 斯 公式 

贝 叶 斯 公式 在 金融 学 中 常见 的 解读 是 历时 解读 。 这 主要 说 明 ， 随 着 时 间 的 推移 ， 我 们 
会 了 解 感 兴趣 的 变量 或 者 参数 的 新 信息 ,例如 时 间 序 列 的 平均 收益 率 。 公 式 13-5 正式 描 
述 了 这 种 理论 。 


公式 13-5 Net Har 






































p(H): p(D|H) 
p(D) 


RP H 表示 某 个 事件 (假设 )，D 代表 实验 或 者 真实 世界 可 能 提供 的 数据 。 在 这 些 定 
义 的 基础 上 ， 我 们 得 到 : 

。 7D( 夯 称 作 先 验 概 率 ; 

e PCD) 是 任何 假设 下 数据 的 概率 ， 称 作 标准 化 常数 ; 

。 PCDI 本 是 假设 瓦 下 数据 的 似 然 度 BEX ); 

。 p(HID) 是 后 验 概率 ， 即 我 们 看 到 数据 之 后 得 出 的 概率 。 

考虑 一 个 简单 的 例子 。 有 两 个 盒子 B 和 B, By, 中 有 20 个 黑 球 和 70 个 红 球 ， 而 B P 
有 40 个 黑 球 和 50 个 红 球 。 随 机 从 两 个 盒子 中 取出 一 个 球 ， 假 定 这 个 球 是 黑色 的 。“H: 
BORA B,” Fl “Hy: 球 来 自 B ”这 两 个 假设 的 概率 分 别 是 多 少 ? 

在 随机 取出 这 个 球 之 前 ， 两 个 假设 的 可 能 性 是 相同 的 。 但 当 球 明显 是 黑色 ， 我 们 必须 
根据 贝 叶 斯 公式 更 新 两 个 假设 的 概率 ， 考 虑 假设 Ho 

。 ERREK: p(H) =1/2 


p(H|D)= 






































Ae | ies Gone (el 
RE 数 : p(D)= 一 x 二 + 二 x 二 = 一 
。 PEEK p(D) -a 3 5 


; 1 
。 WREE: US 


1 1 
更 新 后 的 概率 pD) = 24 = 3 
2 

















这 一 结果 也 有 直观 的 意义 。 从 B, 取 出 一 个 黑 球 的 概率 两 倍 于 同一 件 事情 发 生 在 B 上 的 
概率 。 因 此 ， 取 出 一 个 黑 球 之 后 ,假设 五 ,的 更 新 后 概率 p(HID)=2/3， 也 是 假设 H 更 
新 后 概率 的 2 倍 。 















































1 基于 Python 的 贝 叶 斯 统计 学 基础 概念 介绍 参见 Downey ( 2013 )。 一 -一 原 注 
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13.3.2 ” 贝 叶 斯 回归 

Python 生态 系统 利用 PyMC3 提供 了 一 个 全 面 的 软件 包 , 从 技术 上 实现 了 贝 叶 斯 统计 和 
概率 规划 。 
考虑 如 下 基于 直线 周围 噪声 数据 的 例子 。 首先 ， 在 数据 集 上 实施 一 次 线性 普通 最 小 二 
乘 回 归 (参见 第 11 章 )， 结 果 如 图 13-15 所 示 : 
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13-15 ”样本 数据 点 和 回归 线 


In [1]: import numpy as np 
import pandas as pd 
import datetime as dt 
from pylab import mpl, plt 


In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
np.random.seed (1000) 
smatplotlib inline 


In [3]: x = np.linspace(0, 10, 500) 
y=4+4+2 * x + np.random.standard_normal(len(x)) * 2 








1 这 个 例子 最 初 由 Thomas Wiceki 提供 ,他 是 PyMC3 软件 包 的 主要 作者 之 一 。 一 一 原 注 
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In [4]: reg = np.polyfit(x, y, 1) 


In [5]: reg 
Out [5]: array([2.03384161, 3.77649234]) 


In [6]: plt.figure(figsize=(10, 6)) 
plt.scatter(x, y, c=y, marker='v', cmap='coolwarm') 
plt.plot(x, reg[1] + reg[0] * x, lw=2.0) 
plt.colorbar () 
plt.xlabel('x') 
plt.ylabel('y') 


OLS 回归 方法 的 结果 是 回归 线 上 两 个 参数 ( 截 距 和 和 斜率 ) 的 固定 值 。 注 意 ， 最 高 阶 单 
项 式 因 子 ( 本 例 中 是 回归 线 的 斜率 ) 在 指数 水 平 0 处 ， 截 距 在 指数 水 平 1 处 。 原 始 参 
数 2 和 4 没 能 完全 恢复 ， 这 是 数据 中 包含 的 噪声 所 致 。 

贝 叶 斯 回归 利用 了 PyMC3 软件 包 。 这 里 假定 参数 遵循 某 种 分 布 。 例 如 ， 考 虑 回归 线 方 
程 3(x)=Q+B:x。 假 定 现在 有 以 下 先 验 概率 : 

。 a 旦 正 态 分 布 ， 均 值 为 0， 标 准 差 为 20; 

。 Bp 呈正 态 分 布 ,均值 为 0， 标 准 差 为 10。 

至 于 似 然 度 ， 假 定 一 个 均值 为 I 的 正 态 分 布 和 一 个 标准 差 为 0 一 10 之 间 的 均匀 
分 布 。 


贝 叶 斯 回归 的 一 个 要 素 是 ( 马尔 科 夫 链 ) 蒙特 卡 洛 (MCMC) 采样 。 原 则 上 ， 这 和 前 
一 个 例子 中 多 次 从 盒子 取出 球 相 同一 一 只 是 采用 更 系统 性 、 更 自动 化 的 方式 。 


技术 性 采样 有 3 个 不 同 的 函数 可 以 调用 : 

e find_MAP () 通过 求 取 局 部 最 大 后 验 点 来 寻找 采样 算法 的 起 点 ; 

e NUTS () 为 假定 先 验 概 率 的 MCMC 采样 实现 所 谓 的 “高 效 双 平均 无 回转 采样 器 ” 
(NUTS ) 算法 ; 

e sample () 以 给 定 起 始 值 (来 自 find MAP () ) 和 最 优化 步 长 (KA NUTS 算法 ) 
提取 一 定数 量 的 样本 。 

上 列 函 数 都 包装 到 一 个 PyMC3 Model 对 象 中 ， 并 在 with 语句 中 执行 : 


In [8]: import pymc3 as pm 












































In [9]: %%time 

















1 参见 维基 百科 的 马尔 科 夫 链 。 例 如 ， 本 书 自始至终 使 用 在 第 12 章 中 详细 分 析 的 蒙特 卡 洛 算法 
来 生成 所 谓 的 马尔 科 夫 链 ， 因 为 下 一 步 又 / 值 取决 于 过 程 的 当前 状态 ， 而 非 其 他 历史 状态 或 者 
值 。 一 一 原 注 
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with pm.Model() as model: 
# model 
alpha = pm.Normal('alpha', mu=0, sd=20) © 
beta = pm.Normal('beta', mu=0, sd=10) © 
sigma = pm.Uniform('sigma', lower=0, upper=10) © 
y est = alpha + beta * x © 
likelihood = pm.Normal('y', mu=y_est, sd=sigma, 


observed=y) ® 


# inference 

start = pm.find_MAP() @ 

step = pm.NUTS() © 

trace = pm.sample(100, tune=1000, start=start, 





progressbar=True, verbose=False) © 
logp = -1,067.8, ||grad|| = 60.354: 100% |IME] 28/28 [00:00<00:00, 
474.70it/s] 


Only 100 samples in chain. 


Auto-assigning NUTS sampler... 
Initializing NUTS using jitter+adapt_diag... 


Multiprocess sampling (2 chains in 2 jobs) 





NUTS: [sigma, beta, alpha] 
Sampling 2 chains: 100% |E 2200/2200 [00:03<00:00, 
690.96draws/s] 


CPU times: user 6.2 s, sys: 1.72 s, total: 7.92 s 
Wall time: lmin 28s 


In [10]: pm.summary(trace) @ 
Out [10]: 
mean sd mc_error hpd_2.5 hpd_97.5 n_eff Rhat 
alpha 3.764027 0.174796 0.013177 3.431739 4.070091 152.446951 0.996281 
beta 2.036318 0.030519 0.002230 1.986874 2.094008 106.505590 0.999155 
sigma 2.010398 0.058663 0.004517 1.904395 2.138187 188.643293 0.998547 


In [11]: trace[0] ® 

Out[11]: {'alpha': 3.9303300798212444, 
"beta': 2.0020264758995463, 
"sigma_interval__': -1.3519315719461853, 
‘sigma’: 2.0555476283253156} 


@ 定义 先 验 概率 。 
@ 指定 线性 回归 。 
© 定义 似 然 度 。 





m 


412 #138 统计 


Ne 


@ 通过 优化 找 出 起 始 值 。 
@ 实例 化 MCMC 算法 。 

@ JA NUTS 取得 后 验 样本 。 
@ 展示 采样 的 统计 摘要 。 
@ 从 第 一 个 样本 估算 。 


3 个 估算 值 都 相当 接近 原始 值 (4，2，2 )。 不 过 ， 整 个 过 程 会 得 到 许多 估算 值 。 最 
好 用 轨迹 图 ( 如 图 13-16 所 示 ) 描述 它们 。 轨 迹 图 展示 了 不 同 参数 得 到 的 后 验 分 
布 以 及 每 个 样本 的 单独 估算 值 。 后 验 分 布 帮助 我 们 直观 地 了 解 了 估算 值 中 的 不 确 
定性 : 


In [12]: pm.traceplot (trace, lines={'alpha': 4, 'beta': 2, 'sigma': 2}); 
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13-16 ”后 验 分 布 及 轨迹 图 





仅 从 回归 中 取得 alpha Fil beta 值 就 可 以 绘制 所 有 的 结果 回归 线 ( 见 图 13-17 ): 


In [13]: plt.figure(figsize=(10, 6)) 
plt.scatter(x, y, c=y, marker='v', cmap='coolwarm') 
plt.colorbar () 
plt.xlabel('x') 
plt.ylabel('y') 
for i in range (len (trace)): 
plt.plot(x, trace['alpha'][i] + trace['beta'][i] * x) © 


@ 绘制 单条 回归 线 。 
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图 13-17 基于 不 同 估算 值 的 回归 线 


13.3.3 ”两 种 金融 工具 


用 虚拟 数据 介绍 了 PyMC3 贝 叶 斯 回归 之 后 , 使 用 真实 的 金融 数据 很 简单 。 示 例 使 用 了 
两 种 交易 型 开放 式 基 金 ( GLD 和 GDX ) 的 金融 时 间 序 列 数据 ( 见 图 13-18 ): 


In 





In [18]: 
Out [18]: 





14 


15 


16 


17 


: data 





raw = pd.read_csv('../../source/tr_eikon_eod _data.csv', 
index_col=0, parse _dates=True) 


: data = raw[['GDX', 'GLD']].dropna() 


data / data.iloc[0] © 


: data.info() 


<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 2138 entries, 2010-01-04 to 2018-06-29 
Data columns (total 2 columns): 

GDX 2138 non-null float64 

GLD 2138 non-null float64 

dtypes: floaté64 (2) 

memory usage: 50.1 KB 


data.ix[-1] / data.ix[0] - 1 @ 
GDX -0.532383 
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GLD 
dtype: 


0.080601 
float64 


In [19]: data.corr() ® 


Out [19]: 


GDX 1 
GLD 0 





GDX GLD 
-00000 0.71539 
.71539 1.00000 


In [20]: data.plot (figsize=(10, 6)); 
O 将 数据 规范 化 ， 起 始 值 1。 

@ 计算 相对 绩效 。 
© 计算 两 种 金融 工具 之 间 的 相关 度 。 
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13-18 GLD 和 GDX 一 段 时 间 后 的 规范 化 价格 


在 下 面 的 例子 中 ， 单 个 数据 点 的 日 期 用 散 点 图 来 可 视 化 。 为 此 , 将 DataFrame 中 的 
DatetimeIndex 对 象 转换 成 matplotlib 日 期 。 图 13-19 展示 了 时 间 序 列 数 据 的 散 点 
图 ， 并 将 GLD 价值 与 GDX 价值 进行 对 照 ， 然 后 以 不 同 颜色 显示 每 对 数据 的 日 期 : ， 


In [21]: 
Out [21]: 





data.index[:3] 
DatetimeIndex (['2010-01-04', '2010-01-05', 


'2010-01-06'], 


dtype='datetime64[ns]', name='Date', freq=None) 





1 注意 , 这 里 的 可 视 化 使 月 








有 规范 化 数据 的 日 期 ,而 在 实际 应 用 中 使 用 收益 率 数据 的 日 期 可 能 更 好 。 一 一 原 注 
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In [22]: mpl dates = mpl.dates.date2num(data.index.to_pydatetime()) © 
mpl_dates[:3] 
Out [22]: array([733776., 733777., 733778.]) 


In [23]: plt.figure(figsize=(10, 6)) 
plt.scatter(data['GDX'], data['GLD'], c=mpl_dates, 
marker='0', cmap='coolwarm') 
plt.xlabel ('GDX"') 
plt.ylabel('GLD"') 
plt.colorbar (ticks=mpl.dates.DayLocator(interval=250), 
format=mpl.dates.DateFormatter('%d %b %y')); © 


O 将 DatetimeIndex 对 象 转换 为 matplotlib 日 期 。 
四 自 定义 日 期 的 色 卡 。 
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13-19 GLD 价格 与 GDX 价格 散 点 图 











接 下 来 在 这 两 个 时 间 序 列 基 础 上 实施 贝 叶 斯 回归 ， 参 数 化 本 质 上 和 前 一 个 虚拟 数据 示例 的 
过 程 相同 。 图 13-20 展示 了 在 3 个 参数 先 验 概率 分 布 的 假设 下 ,MCMC 采样 过 程 的 结 


In [24]: with pm.Model() as model: 
alpha = pm.Normal('alpha', mu=0, sd=20) 








beta = pm.Normal('beta', mu=0, sd=20) 
sigma = pm.Uniform('sigma', lower=0, upper=50) 
y_est = alpha + beta * data['GDX'].values 
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In [25]: 
Out [25]: 


alpha 0.913335 
beta 0.385394 
sigma 0.119484 


pm.Normal('GLD', 


mu=y_est, 


sd=sigma, 


observed=data['GLD'].values) 


likelihood = 

start = pm.find_MAP () 
step = pm.NUTS() 
trace = 


logp = 1,493.7, | 
1609.34it/s] 
Only 250 samples 


pm.sample (250, 


grad| | 


tune=2000, 
progressbar=True) 


start=start, 


= 188.29: 100% || 27/27 [00:00<00:00, 


in chain. 


Auto-assigning NUTS sampler... 
Initializing NUTS using jitter+tadapt_diag... 


Multiprocess sampling 





NUTS: [sigma, beta, 


(2 chains in 2 jobs) 


alpha] 


Sampling 2 chains: 100%|M] 4500/4500 [00:09<00:00, 


465.07draws/s] 


The estimated number of effective samples is smaller than 200 for some 


parameters. 


pm.summary (trace) 


mean 


sd mc_error hpd_2.5 hpd_97.5 
0.005983 0.000356 0.901586 0.924714 184.264900 1.001855 
0.007746 0.000461 0.369154 0.398291 215.477738 1.001570 
0.001964 0.000098 0.115305 0.123315 312.260213 1.005246 


n_eff 


Rhat 




















In [26]: fig = pm.traceplot (trace) 
alpha alpha 
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13-20 GDX 和 GLD 数据 的 后 验 分 布 及 轨迹 图 
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图 13-21 将 得 到 的 所 有 回归 线 添 加 到 之 前 的 散 点 图 中 。 但 是 , 所 有 回归 线 相 互 之 间 很 靠近 : 


In [27]: plt- 
.scatter (data['GDX'], data['GLD'], c=mpl_dates, 


plt. 


figure (figsize=(10, 6)) 


marker='0', cmap='coolwarm') 


.xlabel ('GDX") 
.ylabel ('GLD") 


i in range (len (trace)): 
plt.plot (data['GDX'], 
trace['alpha'] [i] + trace['beta'][i] * data['GDX']) 
colorbar (ticks=mpl.dates.DayLocator (interval=250), 
format=mpl.dates.DateFormatter('%Sd %b %y')); 
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13-21 Jt GDX 和 GLD 数据 的 多 条 贝 叶 斯 回归 线 


图 13-21 揭示 了 所 用 回归 方法 的 一 个 重大 缺点 : 该 方法 没有 考虑 随时 间 推 移 发 生 的 变化 。 
也 就 是 说 ， 最 近 的 数据 和 最 老 的 数据 受到 同等 对 待 。 

13.3.4 ”随时 更 新 估算 值 

正如 前 面 指 出 的 ， 金 融 学 上 的 贝 叶 斯 方法 通常 在 历史 分 析 时 最 有 用 一 一 也 就 是 说 ， 随 
着 时 间 推 移 揭示 的 新 数据 可 以 得 出 更 好 的 回归 和 估算 。 


为 了 在 当前 的 示例 中 加 入 上 述 概念 ， 需 要 假定 回归 参数 不 只 是 随机 和 旦 某 种 分 布 的 ， 
而 且 还 会 随 着 时 间 的 推移 随机 “ 游 走 ”。 这 和 金融 理论 中 从 随机 变量 推广 到 随机 过 程 ( 本 
质 上 是 随机 变量 的 有 序 序列 ) 时 采用 了 相同 的 方式 。 
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为 此 , 我 们 定义 一 个 新 的 PyMC3 模型 ， 这 次 指定 参数 值 随机 游 走 。 在 指定 随机 游 走 参 
数 的 分 布 之 后 ， 我 们 可 以 继续 指定 随机 游 走 的 alpha 和 beta 值 。 为 了 使 整个 过 程 更 
加 高 效 ， 为 50 个 数据 点 使 用 相同 的 系数 : 


In [28]: from pymc3.distributions.timeseries import GaussianRandomWalk 








In [29]: subsample_alpha = 50 
subsample beta = 50 


In [30]: model_randomwalk = pm.Model () 
with model_randomwalk: 





sigma_alpha = pm.Exponential('sig_alpha', 1. / .02, 
testval=.1) © 





sigma beta = pm.Exponential('sig beta', 1. / .02, testval=.1) © 

alpha = GaussianRandomWalk('alpha', sigma_alpha ** -2, 
shape=int (len(data) / subsample_alpha)) @ 

beta = GaussianRandomWalk('beta', sigma_beta ** -2, 

shape=int (len (data) / subsample beta)) @ 

alpha_r = np.repeat (alpha, subsample_alpha) ® 

beta_r = np.repeat (beta, subsample beta) © 

regression = alpha_r + beta_r * data['GDX'].values[:2100] @ 

sd = pm.Uniform('sd', 0, 20) © 

likelihood = pm.Normal('GLD', mu=regression, sd=sd, 

observed=data['GLD'].values[:2100]) @ 





@ 为 随机 游 走 参数 定义 先 验 概率 。 
@ 随机 游 走 模型 。 

© 将 参数 向 量 代 人 时 间 间 隔 长 度 。 
@ 定义 回归 模型 。 

@ 标准 差 的 先 验 值 。 

@ 用 回归 结果 中 的 mu 定义 似 然 度 。 


由 于 使 用 随机 游 走 代替 单一 随机 变量 ， 所 以 这 些 定义 都 比 以 前 复杂 一 些 。 不 过 , MCMC 
的 推导 步骤 本 质 上 仍然 没有 变化 。 要 注意 的 是 ， 由 于 我 们 必须 为 每 个 随机 游 走 样本 计 
算 一 个 参数 对 ， 共 计 1950/50=39 个 〈 以 前 只 需要 1 个 )， 所 以 计算 负担 明显 增 大 : 


In [31]: %%time 
import scipy.optimize as sco 








with model_randomwalk: 
start = pm.find_MAP(vars=[alpha, beta], 
fmin=sco.fmin_l_bfgs_b) 
step = pm.NUTS(scaling=start) 
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trace_rw = pm.sample(250, tune=1000, start=start, 

progressbar=True) 

logp = -6,657: 23| | 82/5000 [00:00<00:08, 550.29it/s] 

Only 250 samples in chain. 

Auto-assigning NUTS sampler... 

Initializing NUTS using jitter+tadapt_diag... 

Multiprocess sampling (2 chains in 2 jobs) 

NUTS: [sd, beta, alpha, sig_beta, sig_alpha] 

Sampling 2 chains: 100% || 2500/2500 [02:48<00:00, 8.59draws/s] 


CPU times: user 27.5 Sy sys: 3.68 s, total: 31.2 s 
Wall time: 5min 3s 


In [32]: pm.summary (trace rw) .head() © 
Out [32]: 
mean sd mc_error hpd_2.5 hpd_97.5 neff \ 
alpha 0 0.673846 0.040224 0.001376 0.592655 0.753034 1004.616544 
alpha 1 0.424819 0.041257 0.001618 0.348102 0.509757 804.760648 
alpha 2 0.456817 0.057200 0.002011 0.321125 0.553173 800.225916 
alpha 3 0.268148 0.044879 0.001725 0.182744 0.352197 724.967532 
alpha 4 0.651465 0.057472 0.002197 0.544076 0.761216 978.073246 
Rhat 
alpha 0 0.998637 
alpha 1 0.999540 
alpha 2 0.998075 
alpha 3 0.998995 
alpha 4 0.998060 





@ 每 个 时 间 间 隔 的 汇总 统计 ( 仪 显示 前 5 个 和 alpha )。 
图 13-22 表现 的 是 估算 值 的 一 个 子 集 ， 说 明 回归 参数 alpha 和 beta 随时 间 演 变 : 


In [33]: sh = np.shape(trace_rw['alpha']) © 
sh © 
Out [33]: (500, 42) 





In [34]: part dates = np.linspace(min(mpl_dates), 
max(mpl_dates), sh[1]) @ 


In [35]: index = [dt.datetime.fromordinal (int (date)) for 
date in part_dates] @ 











In [36]: alpha = {'alpha_%Si' % i: v for i, v in 
enumerate (trace_rw['alpha']) if i < 20} © 
In [37]: beta = {'beta %i' % i: v for i, v in 
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numerate (trace rw['beta']) if i < 20} © 
In [38]: df alpha = pd.DataFrame (alpha, index=index) ® 


In [39]: df beta = pd.DataFrame (beta, index=index) ® 





In [40]: ax = df_alpha.plot(color='b', style='-.', legend=False, 
lw=0.7, figsize=(10, 6)) 
df_beta.plot (color='r', style='-.', legend=False, 


lw=0.7, ax=ax) 
plt.ylabel('alpha/beta'); 


@ 包含 参数 估算 值 的 对 象 构成 。 
@ 创建 日 期 列表 以 匹配 时 间 间隔 数量 。 
© 将 相关 的 参数 时 间 序 列 收集 在 两 个 DataFrame 对 象 中 。 
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13-22 一段 时 间 的 选择 参数 估算 值 





绝对 价格 数据 和 相对 收益 率 数据 

本 节 的 分 析 基 于 规范 化 价格 数据 。 这 仅仅 是 为 了 说 明 目 的 ， 因 为 对 应 
的 图 形 化 结果 更 容易 理解 和 解读 (它们 在 视觉 上 “更 引 人 注 目 ”)。 但 
是 , 现实 世界 中 的 金融 应 用 应 该 依赖 收益 率 数据 ， 以 确保 时 间 序 列 数 
据 的 稳定 性 。 











使 用 alpha 和 beta 均值 ， 我 们 可 以 说 明 一 段 时间 内 回归 的 更 新 。 图 13-23 展示 了 回 
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归 随 时 间 推 移 而 更 新 的 情况 。 此 外 ， 它 还 显示 了 从 alpha 和 beta 均值 得 出 的 39 条 回 
归 线 。 很 明显 ， 随 时 间 推 移 而 更 新 大 大 提高 了 回归 拟 合 〈 对 于 当前 /最 新 的 数据 ) 的 精 








度 一 一 换言之 ， 每 个 时 间 周 期 都 需要 自己 的 回归 : 


In [41]: plt. 
plt. 


plt. 


.xlabel ('GDX") 
.ylabel ('GLD") 


figure (figsize=(10, 6)) 
scatter (data['GDX'], data['GLD'], c=mpl_dates, 
marker='0', cmap='coolwarm') 
colorbar (ticks=mpl.dates.DayLocator (interval=250), 
format=mpl.dates.DateFormatter('%Sd %b %Sy')) 


np.linspace (min (data['GDX']), max(data['GDX"']) ) 
i in range(sh[1]): © 
alpha_rw = np.mean(trace_rw['alpha'].T[i]) 





beta rw = np.mean(trace_rw['beta'].T[i]) 
plt.plot(x, alpha_rw + beta_rw * x, '--', lw=0.7, 
color=plt.cm.coolwarm(i / sh[1])) 


o 为 所 有 长 度 为 50 的 时 间 间 隅 绘制 回归 线 。 
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13-23 ”包含 时 间 相 关 回归 线 ( 更 新 的 估算 ) 的 散 点 图 


关于 贝 叶 斯 回归 的 介绍 到 此 告 一 段落 , Python 提供 了 强大 的 PyMC3 E, DAKIEN 
































统计 以 及 概率 编程 中 的 不 同方 法 ， 尤 其 是 贝 叶 斯 回归 ， 它 在 计量 金融 学 中 已 经 成 为 相 
当 流行 而 重要 的 工具 





“AD 
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13.4 ”机 器 学 习 


在 金融 和 许多 其 他 领域 ， 机 器 学 习 (ML) 是 近年 来 非常 重要 的 技术 。 正 如 : 


计量 经 济 学 (目前 来 说 ) 已 经 足以 在 金融 学 术 界 取得 成 功 ， 但 实践 中 的 成 功 
需要 ML, 














一 一 马 科 斯 。 洛 佩斯 。 德 普拉多 (2018) 
机 需 学 习 包 括 不 同类 型 的 算法 ， 它 们 本 质 上 可 以 从 原始 数据 中 自行 学 习 某 些 关 系 、 模 
式 等 。13.6 节 中 列 出 了 许多 图 书 ， 读 者 可 以 从 中 查阅 关于 机 器 学 习 方 法 及 算法 的 数学 和 
统计 学 特性 ， 以 及 实现 及 实际 使 用 的 相关 主题 。 例 如 ，Alpaydin 的 著作 (2016) 对 这 个 
领域 做 了 很 好 的 介绍 ， 并 对 使 用 的 典型 算法 类 型 做 了 非 技术 性 的 概述 。 
本 节 严 格 采用 了 实际 的 方法 ， 只 专注 于 有 选择 的 实现 方面 一 一 着 腿 于 第 15 章 中 使 用 的 
技术 。 不 过 ,我 们 介绍 的 算法 和 技术 可 以 用 于 许多 不 同 金融 领域 , 不仅 限 于 算法 交易 。 
本 市 介绍 两 类 算法 : 无 监督 和 有 监督 学 习 算 法 。 
最 流行 的 Python 机 器 学 习 库 之 一 是 scikit-learn。 它 不 仅 提供 了 许多 ML 算法 的 实现 ， 
还 提供 了 大 量 有 助 于 ML 任务 相关 预 处 理 和 后 处 理 活 动 的 工具 。 本 节 主 要 依靠 这 个 软 
件 包 。 在 深度 神经 网 络 (DNN ) 方面 ， 本 节 还 使 用 了 TensorFlow。 
VanderPlas ( 2016 ) 以 Python 和 scikit-learn 为 基础 ， 简 练 地 介绍 了 不 同 的 ML 算法 。 
Albon ( 2018 ) 为 ML 典型 任务 提供 了 许多 窒 门 , 使 用 的 也 主要 是 Python 和 scikit-learn。 


13.41 无 监督 学 习 

无 监督 学 习 的 思路 是 : 机 器 学 习 算法 在 没有 进一步 指导 的 情况 下 ， 从 原始 数据 中 发 现 深 
层次 的 情况 。K 均 值 (K-means ) 聚 类 就 是 这 样 的 算法 ， 它 将 原始 数据 集 分 为 多 个 聚 类 ， 
为 这 些 子 集 分 配 标签 (“ 聚 类 0"“ 聚 类 1” 等 )。 另 一 个 算法 是 高 斯 混合 。” 






















































































1. 数据 
scikit-learn 可 以 为 不 同类 型 的 ML 问题 创建 样板 数据 。 下 面 创建 适合 于 参数 大 均值 育 类 
的 样板 数据 。 

首先 是 一 些 标准 的 导入 和 配置 : 


In [1]: import numpy as np 








import pandas as pd 
import datetime as dt 
from pylab import mpl, plt 





1 scikit-learn 中 的 更 多 无 监督 学 习 算 法 请 参见 scikit-leam 官方 文档 。 一 一 原 注 





13.4 ”机 器 学 习 423 


In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
np.random.seed (1000) 
np.set_printoptions (suppress=True, precision=4) 
smatplotlib inline 


其 次 ， 创 建 样板 数据 集 。 图 13-24 可 视 化 了 这 些 样板 数据 : 


In [3]: from sklearn.datasets.samples_generator import make_blobs 


In [4]: X, y = make_blobs (n_samples=250, centers=4, 
random state=500, cluster std=1.25) © 


In [5]: plt.figure(figsize=(10, 6)) 
plt.scatter(X[:, 0], X[:, 1], s=50); 


o 创建 用 于 聚 类 的 样本 数据 集 ， 包 含 250 个 样本 和 4 个 中 心 。 











4 ee 
e eee 
2 st ee © A 
0 è = 一 o ee 四 © 
2 F oye os $ - z 2a 
7 3 ° e ee 
Des ig e ° «alas. 
-4 > 一 ve ° 
-6 e s ° ee ® 
e e 8 
-8 — ee Dan: 
aa 
-10 ° IR”. 
o % o 
-12 e 
-10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 





图 13-24” 聚 类 算法 应 用 的 样板 数据 
2. K 均 值 聚 类 


scikit-learn 的 特性 之 一 是 提供 了 应 用 不 同类 算法 的 标准 化 API。 以 下 代码 展示 了 大 均值 聚 
类 的 基本 步骤 ， 此 后 的 其 他 模型 中 也 重复 使 用 这 些 步 又 。 


。 ”导入 模型 类 。 
。 ”实例 化 模型 对 象 。 
。 “将 模型 对 象 与 某 些 数据 拟 合 。 
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按照 某 些 数据 的 拟 合 模型 预测 结果 。 





In [6]: from sklearn.cluster import KMeans © 


In [7]: 


In [8]: 


model = 


model.fit (X) 


KMeans (n clusters=4, 


© 


random state=0) @ 


Out [8]: KMeans (algorithm='auto', copy_x=True, init='k-means++', max_iter=300, 


In [9]: 


in (10]% 
Out [10]: 


In [11]; 


n_clusters=4, n_init=10, n_jobs=None, precompute_distances='auto', 


random _state=0, to 


y_kmeans = 


y_kmeans[:12] © 


array ([1, 


plt.figure (figsize=(10, 
plt.scatter(X[:, 


© 从 scikit-learn 中 导入 模 
@ 按照 某 些 参数 实例 化 模型 对 象 ， 在 实例 化 中 使 用 关于 样本 数据 的 知识 。 
O 将 模型 对 象 与 原始 数据 拟 合 。 
O 根据 原始 数据 预测 聚 类 〈 编号 )。 
@ 显示 预测 的 聚 类 编号 。 
结果 如 图 13-25 所 示 。 








0, 3, 0 


Ol, 


型 类 。 


1=0.0001, verbose=0) 


model.predict (X) © 


r 1, 3, 3, 3, 0, 2, 


6)) 


X[:, 1], 





2), 


c=y_kmeans, 


dtype=int32) 


cmap='coolwarm'); 
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图 13-25 ”样本 数据 与 识别 的 聚 类 
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需要 替代 的 聚 类 方法 时 ， 可 以 考虑 高 斯 混合 。 应 用 方法 与 大 均值 相同 。 在 参数 合适 时 ， 
结果 也 一 样 : 


TI Bad 8) 


Tn [13'].% 


In [14]: 
Out [14]: 


In [15]: 


In [17]: 
Out [17]: 














from sklearn.mixture import GaussianMixture 


model = GaussianMixture(n_components=4, random_state=0) 


model. fit (X) 

GaussianMixture (covariance_type='full', init_params='kmeans', 
max_iter=100, 

means_init=None, n_components=4, n_init=1, precisions_init=None, 


random_state=0, reg_covar=le-06, tol=0.001, verbose=0, 





verbose _interval=10, warm_start=False, weights_init=None) 


y_gm = model.predict (X) 


: y_gm[:12] 
“array (LL; yO “3, 0, lp, 3, Sy 37 0,2, 279 


(y_gm == y_kmeans).all() © 


True 











@ PRA ST aa AAA 


13.42 ”有 监督 学 习 

有 监督 学 习 是 具有 某 种 指导 (形式 是 已 知 的 结果 或 者 观测 数据 ) 的 机 器 学 习 方法 。 这 
意味 着 ， 原 始 数 据 中 已 经 包含 了 ML 算法 打算 学 习 的 东西 。 下 面 的 讨论 重点 是 分 类 问 
题 而 非 估 算 问题 。 估 算 问题 通常 是 估算 实际 数量 ， 而 分 类 问题 的 特征 是 为 某 一 特征 组 
合 分 配 相对 小 的 类 集 ( 整数 值 ) 中 的 某 个 类 ( 整数 值 )。 

13.4.1 方 中 的 例子 说 明 ， 利用 无 监督 学 习 , 算法 可 以 为 识别 的 聚 类 打上 分 类 标签 。 例 中 
有 4 个 聚 类 ,标签 分 别 为 0、1、2 和 3。 有 监督 学 习 中 的 分 类 标签 已 经 给 出 ， 因 此 算法 













































































可 以 学 习 特 征 与 类 别 (分 类 ) 之 间 的 关系 。 换 言 之 ， 在 拟 合 步骤 中 ， 算 法 知道 给 定 特 
征 值 组 合 的 正确 分 类 。 
































本 节 将 阐述 这 些 分 类 算法 : 高 斯 朴素 贝 叶 斯 、 逻 辑 回 归 、 决 策 树 、 深 度 神经 网 络 和 支 





持 向 量 机 的 应 用 。” 





1 


scikit-learn 用 于 有 监督 学 习 的 分 类 算法 概述 请 参见 scikit-learn 文档 。 注 意 , 许多 此 类 算法 不 仅 可 用 
于 分 类 ， 也 可 用 于 估算 。 一 一 原 注 
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1. 数据 





scikit-learn 同样 可 以 为 应 用 分 类 算法 创建 合适 的 样本 数据 。 为 了 可 视 化 结果 , 样本 数据 
只 包含 两 个 实 值 信息 特征 和 一 个 二 元 标签 (二 元 标签 的 特点 是 仅 以 0、1 区 分 两 个 不 同 
类 ) 下 面 的 代码 用 于 创建 样本 数据 、 显 示 数 据 摘要 并 对 其 进行 可 视 化 ( 结果 见 图 13-26 ): 
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图 13-26 分 类 算法 应 用 的 样本 数据 
In [18] from sklearn.datasets import make classification 
In [19]: n samples = 100 
In [20]: X, y = make classification(n samples=n samples, n_features=2, 
n_informative=2, n redundant=0, 
n_repeated=0, random state=250) 
In [21]: X[:5] © 
Out [21] array([[ 1.6876, -0.7976], 
[-0.4312, -0.7606], 
[-1.4393, -1.2363], 
[ 1.118 , -1.8682], 
[ 0.0502, 0.659 ]]) 
In [22]: X.shape © 
Out [22]: (100, 2) 
In [23]: y[:5] @ 
Out [23]: array([1, 0, 0, 1, 1]) 
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In [24]: y.shape @ 


Out 


plt.figure(figsize=(10, 


[24]: 


(100,) 


6)) 


plt.hist (X); 


In [25]: plt.figure(figsize=(10, 6)) 
plt.scatter(x=X[:, 0], y=X[:, 1], c=y, 
@ 两 个 实 值 信息 特征 。 
@ 二 元 标签 。 


2. 高 斯 朴素 贝 叶 斯 














i 


斯 朴素 贝 叶 

















节 中 的 尺 均 值 聚 类 部 分 所 介绍 的 相同 : 


In 





In 
Out 


26 


27 


28 
28 


29 
29 








[32]: 
[321 


from sklearn.naive_bayes import GaussianNB 


from sklearn.metrics import accuracy_score 


model GaussianNB () 


model.fit(X, y) 


GaussianNB (priors=None, var_smoothing=le-09) 


model.predict_proba(X).round(4)[:5] © 


斯 (GNB ) 一 般 被 看 作 许多 分 类 问题 中 很 好 的 基准 算法 。 其 应 有 


cmap='coolwarm!') ; 





H5 13.4.1 
































array([[0.0041, 0.9959], 
[0.8534, 0.1466], 
[0.9947, 0.0053], 
[0.0182, 0.9818], 
[0.5156, 0.4844]]) 
pred = model.predict (X) @ 
pred @ 
array: (01; 0; 0y lpi0% Or 17 12 Lye Op OF 07 07-07 Dee Lye On TOF Dp ody 
0, 
OP O 1-07 “Ly, Li Or Or Op Lp. Ly Os 1707. 205 40; 
Oy: dy dy Bye Op, 07 Ay 0% O07 Ly By. Dye Dee de. Op QO dp Ly Ly Dy. -07 
Oy. Or Ly Oy Ag hp he De de TE OF Om by 05 0 07. De, 05 070, Ly 
OF. Ly Dp Le oly sp0 Or OF (Oy OF 2019 
pred == y ® 
array([ True, rue, True, True, False, True, True, True, True, 
True, False, True, True, True, True, True, rue, rue, 
rue, True, True, True, False, False, False, True, True, 
rue, True, True, True, True, True, False, True, True, 
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True, rue, True, True, True, True, True, True, True, 





True, True, True, True, True, True, False, True, False, 


True, True, True, True, True, True, True, True, True, 








True, True, False, True, True, True, True, True, True, 





True, True, True, True, True, True, False, True, False, 














True, True, True, True, True, True, True, True, True, 





True, True, False, True, False, True, True, True, True, 











In [33]: accuracy_score(y, pred) 9 
Out [33]: 0.87 


@ 显示 算法 在 拟 合 之 后 为 每 个 类 指定 的 概率 。 

@ 根据 概率 来 预测 数据 集 的 两 个 分 类 。 

O 比较 预测 分 类 与 实际 分 类 。 

@ 按照 预测 值 计算 准确 率 。 

图 13-27 可 视 化 了 GNB 中 正确 和 错误 的 预测 ， 代 码 如 下 。 
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13-27 GNB 的 正确 ( 点 ) 和 错误 (X) 预测 


In [34]: Xc = X[y == pred] 


o 
xf = X[y != pred] @ 


In [35]: plt.figure(figsize=(10, 6)) 
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plt.scatter (x=Xc[:, 0], y=Xc[:, 1], c=yly == pred], 


marker='0', cmap='coolwarm') 0 
plt.scatter (x=Xf[:, 0], y=Xf[:, 1], c=yly != pred], 
marker='x', cmap='coolwarm') © 


@ 选择 正确 的 预测 并 绘制 图 表 。 
@ 选择 错误 的 预测 并 绘制 图 表 。 








3. 逻辑 回归 


逻辑 回归 CLR) 是 一 种 快速 、 可 缩放 的 分 类 算法 。 在 以 下 示例 中 ， 其 精确 度 略 好 
于 GNB: 





In [36]: from sklearn.linear_model import LogisticRegression 
In [37]: model = LogisticRegression(C=1, solver='lbfgs"') 


In [38]: model.fit(X, y) 
Out [38]: LogisticRegression(C=1, class_weight=None, dual=False, 
fit_intercept=True, 
intercept_scaling=1, max_iter=100, multi_class='warn', 
n_jobs=None, penalty='12', random_state=None, 


solver='lbfgs',tol=0.0001, verbose=0, warm_start=False) 


In [39]: model.predict_proba (XxX) .round(4) [:5] 
Out [39]: array([[0.011 , 0.989 ], 
[0.7266, 0.2734], 

[0:97 y 0.1029], 
] 

] 


[0.04 , 0.96 7 
[0.4843, 0.5157]]) 





In [40]: pred = model.predict (X) 


In [41]: accuracy_score(y, pred) 
Out [41]: 0.9 


In [42]: Xc = X[y == pred 
Xf = X[y != pred 














In [43]: plt.figure(figsize=(10, 6)) 
plt.scatter(x=Xc[:, 0], y=Xc[:, 1], c=yly == pred], 


marker='o0', cmap='coolwarm') 





plt.scatter(x=Xf[:, 0], y=Xf[:, 1], c=yly != pred], 


marker='x', cmap='coolwarm') ; 





~ 
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4. RRM 


决策 树 (DT ) 是 另 一 类 很 容易 缩放 的 分 类 算法 。 在 最 大 深度 为 1 的 情况 下 ， 这 种 算法 
的 表现 已 经 略 好 于 GNB 和 LR (ILAI 13-28 ): 























4 @ 
3 
o 
A e 
2 e 
o ee SOX 
1 ewe = ex eee 。 
A = ee ° e ® 
@ et 
0 Cs e s e 
e x e 
1 8 ot i 8 e 
= e o 6 
A @ s e 
-2 =e on 一 所 
@ @ 
as e 
o 
-3 -2 -1 0 1 2 3 











13-28 DT 中 的 正确 ( 点 ) 与 错误 ( 义 ) 预测 ( 最 大 深度 为 1 ) 


In [44]: from sklearn.tree import DecisionTreeClassifier 
In [45]: model = DecisionTreeClassifier (max_depth=1) 


In [46]: model.fit(X, y) 
Out [46]: DecisionTreeClassifier(class_weight=None, criterion='gini', 
max_depth=1, 
max features=None, max _leaf_nodes=None, 
min_impurity_decrease=0.0, min_impurity_split=None, 
min_samples_leaf=1, min_samples_split=2, 
min_weight_fraction_leaf=0.0, presort=False, random_state=None, 
splitter="best') 


In [47]: model.predict_proba (X).round(4) [:5] 
Out[47]: array([[0.08, 0.92], 

0.92, 0.08 
0.92, 
0.08, 
0.08, 


oO oo 
Xe} 
N 
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In [48]: pred = model.predict (X) 


In [49]: accuracy_score(y, pred) 
Out [49]: 0.92 


In [50]: Xc = X[y == pred 
Xf = X[y != pred 











In [51]: plt.figure(figsize=(10, 6)) 

plt.scatter(x=Xc[:, 0], y=Xc[:, 1], c=yly == pred], 
marker='0', cmap='coolwarm' ) 

plt.scatter(x=Xf[:, 0], y=Xf[:, 1], c=yly != pred], 


marker='x', cmap='coolwarm'); 


增 大 决策 树 的 最 大 深度 参数 ， 可 以 达到 完美 的 结果 : 


In [52]: print (T(t | {:8s}'.format ('depth', 'accuracy'!)) 
PrInG(2Z0> E EEr) 
for depth in range(1, 7): 














model = DecisionTreeClassifier (max_depth=depth) 
model.fit(X, y) 

acc = accuracy_score(y, model.predict (X) ) 

print ('{:8d} | {:8.2f}'.format (depth, acc)) 
depth accuracy 








Nn oO FF WN BP 
EC CY fo 
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5. 深度 神经 网 络 

深度 神经 网 络 (DNN ) 被 认为 是 最 强大 但 计算 要 求 也 很 高 的 估算 与 分 类 算法 之 一 。 它 
的 流行 部 分 归功 于 Google 开放 的 TensorFlow 库 源码 及 其 成 功 事迹 。DNN 可 以 学 习 复 
杂 的 非 线 性 关系 并 为 之 建 模 。 虽 然 它 起 源 的 时 间 可 以 追溯 到 20 世纪 70 ER, 但 直到 
最 近 几 年 ， 随 着 硬件 (CPU 、GPU 、TPU )、 数 值 算法 及 相关 软件 实现 的 进步 ， 它 才 得 
以 大 规模 应 用 。 

其 他 ML 算法 ( 如 LR 类 线性 模型 ) 可 以 根据 标准 优化 问题 高 效 拟 合 ， 而 DNN 依赖 于 
深度 学 习 ， 这 通常 需要 大 量 重复 步 又 以 调整 某 些 参数 (权重 )， 从 而 比较 结果 与 数据 。 
从 这 个 意义 上 说 ， 深 度 学 习 可 以 和 金融 数学 中 的 蒙特 卡 洛 模拟 相提并论 ， 例 如 ， 欧 式 
看 涨 期 权 的 价格 估算 可 能 在 标的 的 10 万 条 模拟 路 径 基础 上 进行 。 男 一 方面 ，Black- 
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Scholes-Merton 期 权 定价 公式 采用 的 是 封闭 形式 ， 可 以 进行 分 析 性 的 评估 。 

蒙特 卡 洛 模拟 是 金融 数学 中 最 为 灵活 和 强大 的 数字 技术 之 一 ， 但 代价 是 高 计算 负担 和 
大 内 存 占用 。 深 度 学 习 也 是 如 此 ， 它 通常 比 许多 其 他 ML 算法 更 灵活 ， 但 它 需 要 的 计 
算 能 力也 更 大 。 


用 scikit-learn 实现 DNN。 虽 然 性 质 上 有 很 大 的 不 同 , 但 scikit-learn 为 其 MLPClassifier 
算法 类 提供 了 相同 的 API。 该 类 是 一 个 DNN 模型 ， 可 用 于 此 前 使 用 的 其 他 ML 算法 。 
仅 用 两 个 所 谓 的 隐 含 层 ， 它 就 能 在 测试 数据 上 得 到 完美 的 结果 ( 隐 含 层 是 深度 学 习 有 
别 于 简单 学 习 的 地 方 一 一 例如 ， 在 线性 回归 背景 下 “学 习 ” 权 重 ， 而 不 是 使 用 OLS E 
归 直 接 得 出 它们 ): 


In [53]: from sklearn.neural network import MLPClassifier 





















































In [54]: model = MLPClassifier(solver='lbfgs', alpha=le-5, 


hidden_layer_sizes=2 * [75], random_state=10) 


In [55]: %Stime model.fit(X, y) 
CPU times: user 537 ms, sys: 14.2 ms, total: 551 ms 
Wall time: 340 ms 


Out [55]: MLPClassifier (activation='relu', alpha=le-05, batch_size="auto', 
beta_1=0.9, 
beta_2=0.999, early _stopping=False, epsilon=le-08, 





hidden_layer_sizes=[75, 75], learning_rate='constant', 
learning_rate_init=0.001, max_iter=200, momentum=0.9, 

n_iter_no_change=10, nesterovs_momentum=True, power _t=0.5, 
random_state=10, shuffle=True, solver='lbfgs', tol=0.0001, 


validation fraction=0.1, verbose=False, warm _start=False) 


In [56]: pred = model.predict (X) 
pred 

Out [56]-s array Olt” 0;. 0z Lr 1, 0, 1, Ly 1y 0 1, 0,0, 0, 1, 1, “OF 1p 0,01, 1, 

0, 
te Lr On Op 05-07-1052 O Lr Qn 177 OF OR OY) O71, Ve OF. Vs 0507207 
Oz Ey ly ys Oys Or Lr stp 07 OR Ly lp ly Ch sO Oy Oy le. hy Tp De. Ty 
05.2107. Ty Qn 05. By dp tk tO Lr Ly Oy: Dy Ly Op “OF 07-17 
OF Lr Lr Le Oy dep dir Or Or Opr Oy 0N 


In [57]: accuracy_score(y, pred) 
Out ESTIIS £50 


用 TensorFlow 实现 DNN., TensorFlow 的 API 与 scikit-leam 标准 不 同 。 但 是 , DNNClassifier 
类 的 应 用 同样 简单 : 


TTE 
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In [58]: import tensorflow as tf 





tf. logging.set_verbosity(tf.logging.ERROR) © 
In [59]: fc = [tf.contrib.layers.real_valued_column('features')] @ 


In [60]: model = tf.contrib.learn.DNNClassifier (hidden _units=5 * [250], 
n_classes=2, 
feature columns=fc) ® 


In [61]: def input_fn(): @ 
fc = {'features': tf.constant (X) } 
la = tf.constant (y) 
return fc, la 


In [62]: %time model.fit (input_fn=input_fn, steps=100) © 
CPU times: user 7.1 s, sys: 1.35 s, total: 8.45 s 


Wall time: 4.71 s 


Out [62]: DNNClassifier (params={'head': 


<tensorflow.contrib.learn.python.learn ... head. BinaryLogisticHead 
object at Oxla3ee692b0>, 'hidden_units': [250, 250, 250, 250, 250], 
"feature _columns': (_RealValuedColumn (column _name='features', 


dimension=1, default_value=None, dtype=tf.float32, normalizer= 





None),), 
‘optimizer': None, 'activation_fn': <function relu at Oxla3aa75b70>, 
"dropout': None, 'gradient_clip_norm': None, 
"embedding_lr_multipliers': None, 'input_layer_min_slice 
size': None}) 


In [63]: model.evaluate(input_fn=input_fn, steps=1) © 
Out [63]: {'loss': 0.18724777, 
‘accuracy': 0.91, 
‘labels/prediction_mean': 0.5003989, 
"labels/actual_label_ mean': 0.5, 


"accuracy/baseline label _mean': 0.5, 
"auc': 0.9782, 
"auc_precision_recall': 0.97817385, 


"accuracy/threshold_0.500000 mean': 0.91, 
"precision/positive threshold 0.500000 mean': 0.9019608, 
'recall/positive_ threshold_0.500000_mean': 0.92, 
"global_step': 100} 


In [64]: pred = np.array (list (model.predict (input_fn=input_fn))) © 
pred[:10] © 
Out 64) array (tl Or 07 Ly Ty Of Le Ly -1y 1) 





~ 
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In [65]: %time model.fit(input_fn=input_fn, steps=750) @ 
CPU times: user 29.8 s, sys: 7.51 s, total: 37.3 s 
Wall time: 13.6 s 


Out [65]: DNNClassifier (params={'head!': 


<tensorflow.contrib.learn.python.learn ... head. _BinaryLogisticHead 
object at Oxla3ee692b0>, 'hidden_units': [250, 250, 250, 250, 250], 
‘feature _columns': (_RealValuedColumn (column name='features', 


dimension=1, default_value=None, dtype=tf.float32, normalizer= 





None),), 
‘optimizer': None, 'activation_fn': <function relu at Oxla3aa75b70>, 
"dropout': None, 'gradient_clip_norm': None, 
"embedding_lr_multipliers': None, 'input_layer_min_slice 
size': None}) 


© © O © O © ©®© © 


m 


In [66]: model.evaluate (input fn=input fn, steps=1) © 
Out [66]: {*loss*: 0.09271307, 
'accuracy': 0.94, 
'labels/prediction mean': 0.5274486, 
"1abels/actual label mean': 0.5, 


'accuracy/baseline label mean': 0.5, 
"auc': 0.99759996, 
'auc precision recall': 0.9977609, 


"accuracy/threshold_0.500000 mean': 0.94, 
"precision/positive threshold_0.500000_mean': 0.9074074, 
'recall/positive_threshold_0.500000 mean': 0.98, 

'global step': 850} 


设置 TensorFlow 日 志 的 详细 程度 。 
抽象 定义 实 值 特征 。 
实例 化 模型 对 象 。 
特征 和 标签 数据 由 函数 提交 。 

通过 学 习 拟 合 模型 并 评估 。 

根据 特征 值 预测 标签 值 。 

以 更 多 学 习 步 又 为 基础 重新 训练 模型 ， 前 面 的 结果 作为 起 始点 。 
重新 训练 后 精度 提高 。 





T 






































这 里 介绍 的 只 是 TensorFlow 的 一 点 皮毛 ， 它 被 用 于 许多 高 要 求 的 用 例 中 ， 例 如 Alphabet 
公司 制造 自动 驾驶 汽车 。 就 速度 而 言 ，TensorFlow 模型 的 训练 通常 显著 得 益 于 专用 硬 
件 (如 GPU 和 TPU )， 而 不 是 CPU。 
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6， 特 征 空间 变换 
由 于 多 种 原因 ， 变 换 实 值 特征 可 能 有 好 处 ， 其 至 是 必要 的 。 下 面 的 代码 展示 了 一 些 典 
型 的 变化 ， 并 在 图 13-29 中 可 视 化 结果 以 进行 比较 : 
In [67]: from sklearn import preprocessing 
In [68]: X[:5] 
Oüt [68]; array([[ 1.6876, -0.7976], 
-0.4312, -0.7606], 
=154393,. =1..23'63); 
1.118 , -1.8682], 
0.0502, 0.659 ]]) 
In [69]: Xs = preprocessing.StandardScaler().fit_transform(X) 
Xs[:5] 
Out [69]: array([[ 1.2881, -0.5489], 
[-0.3384, -0.5216], 
[=1..1122;,.. =05,.8:73° 1; 
[ 0.8509, -1.3399], 
[ 0.0312, 0.527311) 
In [70]: Xm = preprocessing.MinMaxScaler().fit_transform(xX) @ 
Xm[:5] 
Out [70]: array([[0.7262, 0.3563], 
[0.3939, 0.3613], 
[0.2358, 0.2973], 
[0.6369, 0.2122], 
[0.4694, 0.5523]]) 
In [71] Xnl = preprocessing.Normalizer (norm='11') .transform(X) 
Xn1[:5] 
Out [71]: array([[ 0.6791, -0.3209], 
[-0.3618, -0.6382], 
[-0.5379, -0.4621], 
[ 0.3744, -0.6256], 
[ 0.0708, 0.9292]]) 
n [72]: Xn2 = preprocessing.Normalizer (norm='12') .transform(X) 
Xn2[:5] 
Out [72]: array([[ 0.9041, -0.4273], 
[-0.4932, -0.8699], 
[-0.7586, -0.6516], 
[ 0.5135, -0.8581], 
[ 0.076 , 0.9971]]) 
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In [73]: plt.figure(figsize=(10, 6)) 


( 
markers = ['o', '.', 'x', '4', 'w'] 


data_sets {X, Xs, Xm, Xnl, Xn2] 
labels = ['raw', 'standard', 'minmax', 'norm(1)', 'norm(2)'] 


for x, m, 1 in zip(data_sets, markers, labels): 
plt.scatter(x=x[:, 0], y=x[:, 1], c=y, 
marker=m, cmap='coolwarm', label=1) 


plt.legend(); 
O 将 特征 数据 变换 为 均值 为 0、 单 位 方差 的 标准 正 态 分 布 数据 。 
@ 将 特征 数据 变换 为 各 个 特征 的 给 定 范围 ， 具 体 范围 由 特征 的 最 小 值 和 最 大 值 定义 。 
© 将 特征 数据 比例 单独 调整 为 单位 规范 (LI1 或 者 L2 )。 
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13-29 ”原始 数据 与 变换 后 数据 的 对 比 


对 于 模式 识别 任务 ， 分 类 特征 的 变换 往往 很 有 帮助 ， 甚 至 是 实现 可 接受 结果 所 必需 的 。 
为 此 ， 特 征 的 实 值 需要 映射 到 有 限 、 固 定数 量 的 整数 值 (类 别 、 分 类 ): 


In [74]: X[:5] 
Out[74]: array ([ 1.6876, -0.7976 
0.4312, -0.7606 


[ ] 
[= ] 
[-1.4393, -1.2363], 
[ ] 
[ ] 





1.118 , -1.8682 
0.0502, 0.659 ] 
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In [75]: Xb = preprocessing.Binarizer().fit_transform(X) © 


Xb[:5] 
Out[75]: array([[1. 
[05 
[0. 
[ds 
[1. 


In [76]: 2 xx 2 @ 
Out [76]: 4 


7 


7 


7 


¥ 


7 


ely 


0.] 

0.]， 
0.]， 
0.] 
1.] 


.]] 


In [77]: Xd = np.digitize(X, bins=[-1, 0, 1]) © 


Xd[:5] 
Out [77]: array([[3, 
[1, 
[0, 
[3， 
[2， 


In [78]: 4 ** 2 9 
Out [78]: 16 


@ 将 特征 变换 为 二 元 特征 








o 


1], 
1], 
0], 
0], 
2]1) 





@ 两 个 二 元 特征 的 可 能 特 得 
© 根据 用 于 数据 分 组 的 值 列表 ， 将 特征 变换 为 分 类 特征 。 
O 可 能 特征 值 组 合 数量 ， 两 个 特 行 














F 值 组 合 数量 。 


T 











F 各 有 3 个 值 用 于 分 组 。 





7. 训练 -测试 分 离 : 支持 向 量 机 


现在 ， 每 个 有 经 验 的 ML 研究 人 员 和 从 业者 看 到 本 书 ， 都 可 能 会 关心 本 节 的 实现 : 
们 都 依靠 同样 的 数据 进行 训练 、 学 习 和 预测 。 如 果 将 不 同 数据 〈 子 ) 集 用 于 训练 、 








n> 


E 
Me 











习 以 及 测试 ， 当 然 可 以 更 好 地 评判 ML 算法 的 质量 ， 这 也 更 接近 于 现实 应 用 场景 。 








a 


scikit-learn 也 提供 了 一 个 函数 来 高 效 地 实现 这 种 方法 。 特别 是 , train_test_split () 
函数 可 以 通过 随机 但 可 重复 的 方式 将 数据 集 拆 分 为 训练 数据 和 测试 数据 。 


下 面 的 代码 使 用 了 另 一 种 分 类 算法 一 一 支持 向 量 机 (SVM )。 首 先 根据 训练 数据 拟 合 




















SVM 模型 : 








In [79]: from sklearn.svm import SVC 


from sklearn.model_selection import train_test_split 


In [80]: train_x, test_x, train_y, test_y = train_test_split(X, y, 


test_size=0.33, 
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random state=0) 


coef0=0.0, 


In [81]: model = SVC(C=1, kernel='linear') 

In [82]: model.fit(train_x, train y) © 

Out [82]: SVC(C=1, cache_size=200, class_weight=None, 

decision_function_shape='ovr', degree=3, gamma='auto_deprecated', 

kernel='linear', max_iter=-1, probability=False, random_state=None, 
shrinking=True, tol=0.001, verbose=False) 

In [83]: pred train = model.predict (train x) @ 

In [84 accuracy_score(train_y, pred train) ® 

Out [84 0.9402985074626866 


@ 根据 训练 数据 拟 合 模型 。 
@ 预测 训练 数据 标签 值 。 
© 训练 数据 预测 精度 (“样本 中 ”)。 








接 下 来 , 根据 测试 数据 测试 拟 合 模 型 。 图 13-30 展示 了 测试 数据 的 正确 和 错误 预测 。 在 











测试 数据 上 的 准确 率 正如 人 们 的 预 








期 一 一 低 于 训练 数据 : 



































In [85]: pred test = model.predict (test x) © 
In [86]: test y == pred test @ 
Out [86]: array([ True, True, True, True, True, True, True, True, True, 
rue, False, False, False, True, True, True, False, False, 
False, True, True, True, True, True, True, True, True, 
rue, rue, rue, rue, False, True]) 
In [87 accuracy Score (test_Yy pred test) © 
Out [87 0.7878787878787878 
In [88 test_c = test_x[test_y == pred test] 
test f = test_x[test_y != pred_test] 
In [89 plt.figure (figsize=(10, 6)) 
plt.scatter(x=test c[:, 0], y=test_c[:, 1], c=test_y[test_y 
== pred test], 
marker='0', cmap='coolwarm') 
plt.scatter(x=test_f[:, 0], y=test_f[:, 1], c=test_y[test_y != p 
red test], 
marker='x cmap='coolwarm'); 
@ 根据 测试 数据 预测 测试 数据 标签 值 。 
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O 求 得 拟 合 模型 在 测试 数据 上 的 准确 率 (“样本 外 ”)。 
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Æ 13-30 SVM 在 测试 数据 上 的 正确 ( 点 ) 和 错误 ( 叉 ) 预测 


SVM 分 类 算法 提供 了 所 使 用 核心 的 多 种 选项 。 从 以 下 分 析 可 以 看 出 ， 根 据 手头 的 问题 ， 
不 同 核心 可 能 导致 大 不 相同 的 结果 ( 即 不 同 的 准确 率 )。 这 段 代 码 首 先 将 实 值 特征 变换 
为 分 类 特征 : 


In [90]: bins = np.linspace(-4.5, 4.5, 50) 











In [91]: Xd = np.digitize(X, bins=bins) 


In [92]: Xd[:5] 

Out [92]: array([[34, 21] 
[23,21] 
{17, 18], 
[3L,; 25], 

[25, 29]]) 





In [93]: train_x, test x, train_y, test_y = train test split (Xd, y, 
test _size=0.33, 


random _state=0) 


In [94]: print('{:>8s} | {:8s}'.format('kernel', 'accuracy')) 
print (20 * t=") 
for kernel in ['linear', 'poly', 'rbf', 'sigmoid']: 
model = SVC(C=1, kernel=kernel, gamma='auto') 
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model.fit(train_x, train_y) 
acc = accuracy_score(test_y, model.predict (test_x) ) 
print ('{:>8s} | {:8.3f}'.format (kernel, acc)) 





kernel | accuracy 
linear | 0.848 
poly | 0.758 
rbf | 0.788 
sigmoid | 0.455 


13.5 2iz 
统计 学 不 仅 本 身 是 个 重要 学 科 ， 还 为 许多 其 他 学 科 ( 如 金融 学 和 社会 科学 ) 提供 了 不 
可 或 缺 的 工具 。 在 一 个 章节 中 完整 地 讲解 这 么 大 的 主题 是 不 可 能 的 。 因 此 ， 本 章 专 注 
于 4 个 主题 ， 以 实例 为 基础 阐述 了 Python 和 多 种 统计 库 的 使 用 。 
JE At 
关于 金融 市 场 收 益 的 正 态 性 假设 对 许多 金融 理论 和 应 用 非常 重要 ; 因此 ， 检验 某 
些 时 间 序 列 数据 是 否 遵 循 这 一 假设 也 很 重要 。 正 如 13.1 节 通 过 图 形 和 统计 学 手段 
表明 的 那样 ， 现 实 世 界 的 收益 率 数据 通常 不 遵循 正 态 分 布 。 
KRAE 
MPT 的 焦点 是 收益 率 的 均值 和 方差 /波动 率 , 它 被 视 为 金融 统计 学 概念 和 智能 方面 
的 重大 成 功 。 分 散 投资 这 一 重要 概念 在 这 一 背景 中 得 到 了 很 好 的 诠释 。 
Kf Af 7/2 
贝 叶 斯 统计 (尤其 是 贝 叶 斯 回归 ) 已 经 成 为 金融 学 中 的 流行 工具 ， 因 为 这 种 方法 
克服 了 第 11 章 介 绍 的 其 他 方法 的 缺点 。 尽 管 它 的 数学 和 形式 体系 更 加 复杂 ， 但 是 
基本 思路 ( 如 随时 间 推 移 更 新 概率 /分 布 ) 很 容易 直观 地 掌握 。 
BEF T 
当今 ， 机 器 学 习 已 经 和 传统 统计 学 方法 与 技术 一 样 ， 确 立 了 在 金融 领域 中 的 地 位 。 
本 章 介绍 了 无 监督 学 习 (如 大 均值 聚 类 ) 和 有 监督 学 习 (如 DNN 分 类 器 ) ML 算 
法 ， 并 阐述 了 一 些 精 选 的 相关 主题 ， 如 特征 变换 及 训练 -测试 分 离 。 























































































































13.6 ”延伸 阅读 
关于 本 章 介 绍 的 主题 和 库 的 更 多 信息 ， 可 参考 以 下 在 线 资 源 : 
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QD SciPy 统计 学 函数 文档 ; 

@) statsmodels 库 文 档 ; 

© 本 章 使 用 的 优化 函数 细节 详 见 SciPy 官 方 文档 的 Optimization and Root Finding 部 分 ; 
@ PyMC3 文档 ; 

©) scikit-learn 文档 。 

更 多 背景 信息 相关 的 参考 图 书 如 下 。 


Albon，Chris (2018). Machine Learning with Python Cookbook. Sebastopol, CA: 
O’Reilly. 


Alpaydin, Ethem (2016). Machine Learning. Cambridge, MA: MIT Press. 


Copeland, Thomas, Fred Weston, and Kuldeep Shastri (2005). Financial Theory and 
Corporate Policy. Boston, MA: Pearson. 


Downey, Allen (2013). Think Bayes. Sebastopol, CA: O’Reilly. 


Geweke, John (2005). Contemporary Bayesian Econometrics and Statistics. Hoboken, 
NJ: John Wiley & Sons. 


Hastie, Trevor, Robert Tibshirani, and Jerome Friedman (2009). The Elements of 


Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer. 


James, Gareth, et al. (2013). An Introduction to Statistical Learning —With Applications 
in R. New York: Springer. 


Lopez de Prado, Marcos (2018). Advances in Financial Machine Learning. Hoboken, 
NJ: John Wiley & Sons. 


Rachev, Svetlozar, et al. (2008). Bayesian Methods in Finance. Hoboken, NJ: John 
Wiley & Sons. 


VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’ Reilly. 


介绍 现代 投资 组 合理 论 的 论文 有 : 
Markowitz, Harry (1952). “Portfolio Selection.” Journal of Finance, Vol. 7, pp. 77-91. 
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DU0 











第 4 部 分 介绍 Python 在 算法 交易 上 的 应 用 。 越 来 越 多 的 交易 平台 和 经 纪 商 允许 客户 使 
用 各 种 工具 (如 REST API )， 以 编程 的 方式 读 取 历史 数据 或 流 数据 ， 或 者 下 单 买 人 及 
卖 出 。 大 型 金融 机 构 长 期 以 来 占据 的 这 块 “ 领 地 ”， 现 在 居然 向 使 用 算法 交易 的 散户 敞 
开 了 大 门 。 除 了 其 他 因素 之 外 , 主要 推动 因素 是 许多 交易 平台 ( 如 福 汇集 团 ) 为 其 REST 
API 提供 了 易于 使 用 的 Python 包装 器 库 。 


第 4 部 分 由 3 章 组 成 。 

。 第 14 章 介绍 福 汇 (FXCM ) 交易 平台 、 它 的 REST API 和 fxcmpy 包装 顺 库 。 

。 第 15 章 的 重点 是 使 用 统计 学 及 机 器 学 习 方 法 得 出 算法 交易 策略 ; 本 章 还 介绍 如 何 
使 用 向 量化 来 进行 事后 检验 。 


。 第 16 章 介 绍 自动 化 算法 交易 策略 的 部 署 ; 包括 资产 管理 、 绩 效 与 风险 事后 检验 、 
在 线 算法 及 部 署 。 
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FXCM [00 


金融 机 构 喜 欢 把 自己 所 做 的 事情 称 作 交易 。 说 老实 话 ， 那 不 是 交易 ， 那 是 赌博 。 


AEST 





一 一 格雷 顿 * 卡特 





召 福 汇集 团 ( FXCM Group, LLC) 的 交易 平台 、 它 的 REST 风格 流 应 用 编程 接 








O (API) 以 及 Python 包装 器 库 fxcmpy。FXCM 向 散户 和 机 构 投资 者 提供 了 许多 金融 


产品 ， 
的 焦 





点 是 货 









































它们 既 可 以 通过 传统 交易 应 用 程序 交易 ， 也 可 以 通过 API 编程 交易 。 这 些 产 品 
币 组合 以 及 主要 股票 指数 及 商品 等 的 差价 和 约 。 














风险 提示 

外 汇 /CFD 保证 金 交 易 的 风险 很 高 , 有 可 能 遭受 超出 保证 金额 度 的 损失 
因此 不 一 定 适 合 于 所 有 投资 者 。 杠杆 可 能 对 你 产生 不 利 影响 。 这 些 产品 
面向 散户 和 专业 客户 。 由 于 地 方法 规 与 监管 的 某 些 限制 , 居住 在 德国 的 
散户 可 能 损失 全 部 保证 金 , 但 没有 义务 支付 超出 部 分 。 投资 者 必须 知晓 
并 完全 理解 与 市 场 和 交易 相关 的 所 有 风险 .在 交易 任何 产品 之 前 , 认真 
考虑 自己 的 财务 状况 与 经 验 水 平 。 任 何 意见 、 消 息 、 研 究 、 分 析 、 价 格 
或 者 其 他 信息 都 只 能 作为 一 般 市 场 评论 ， 不 包含 任何 投资 建议 。 市 场 建 
议 不 是 根据 提升 投资 研究 独立 性 的 法 律 要 求 准备 的 , 因此 不 受 任何 在 传 
播 之 前 交易 的 禁令 限制 。FXCM 和 作者 不 承担 损失 的 责任 ,包括 并 不 限 
于 任何 因为 依赖 这 些 信息 而 造成 的 直接 或 间接 利润 损失 。 


FXCM 交易 平台 甚至 允许 资金 头寸 较 小 的 个 人 交易 者 实施 和 部 署 算法 交易 策略 。 


本 章 介 





绍 FXCM 交易 API 的 基本 功能 ， 以 及 通过 编程 实现 自动 算法 交易 策略 所 需 的 




















fxcmpy Python 库 。 具 体 的 组 织 结构 如 下 
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ATI 
本 节 介 绍 如 何 准备 FXCM REST API 算法 交易 所 需 的 一 切 条 件 。 
本 节 讲 解读 取 及 使 用 金融 数据 的 方法 ( 直到 分 笔 数据 级 别 )。 














J API 
AS“ FE AY REST API 实现 的 典型 任务 ， 如 读 取 历 史 及 流 数据 、 下 单 和 查询 账户 
信息 。 


14.1 ATI 


在 命令 行 上 执行 如 下 命令 来 安装 Python 包装 器 库 fxcmpy: 

pip install fxcmpy 
fxcmpy 库 的 文档 可 以 在 fxcempy 官网 上 找到 。 对 于 FXCM 交易 API Fil fxcmpy 库 的 人 
门 学 习 , 在 FXCM 上 注册 一 个 免费 的 演示 账户 就 足够 了 '。 下 一 步 是 在 演示 账户 内 创建 
唯一 的 API 令 牌 一 一 如 YOUR_FXCM_API_TOKEN。 然后 ,打开 到 API 的 链接 ,例如 
通过 如 下 语句 : 


import fxcmpy 



































api = fxcmpy.fxcmpy (access_token=YOUR_FXCM_API_TOKEN, log_level='error') 


另外 ， 也 可 以 使 用 一 个 配置 文件 (如 fxcm.cfg ) 连接 到 API。 这 个 文件 的 内 容 如 下 : 


[FXCM] 

log level = error 

log file = PATH TO AND NAME OF LOG FILE 
access token = YOUR FXCM API TOKEN 


然后 ， 你 可 以 通过 以 下 语句 连接 到 API: 


import fxcmpy 




















api = fxcmpy.fxcmpy (config file='fxcm.cfg') 


默认 情况 下 ，fxcmpy 类 连接 到 演示 服务 器 。 不 过 ， 通 过 使 用 server 参数 ，fxcmpy 
类 可 以 连接 到 真实 的 交易 服务 器 ( 如 有 果 有 账户 的 话 ): 


api = fxcmpy.fxcmpy (config file='fxcm.cfg', server='demo') 




















o 
@ 


api = fxcmpy.fxcmpy (config file='fxcm.cfg', server='real') 


@ ERIAK Ao 





1 YER, FXCM 演示 账户 仅 在 某 些 国家 提供 。 一 一 原 注 
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@ 连接 到 真实 交易 服务 器 。 


14.2 ” 读 取 数据 


FXCM 提供 对 历史 市 场 价格 数据 集 ( 例如 分 笔 交 易 数据 ) 的 访问 ， 这 些 数据 预先 经 过 
打包 。 例 如 ， 你 可 以 从 FXCM 2018 年 第 26 周 欧 元 /美元 汇率 分 时 数据 
的 压缩 文件 , 这 将 在 之 后 的 内 容 中 介绍 。 之 后 的 内 容 还 将 解释 从 API 读 取 历史 天线 ( 蜡 
烛 图 ) 数据 的 方法 。 


14.2.1 读 取 分 笔 交 易 数 据 
FXCM 提供 多 种 货币 组 合 的 历史 分 笔 交 易 数据 。fxcmpy 库 方便 了 这 种 分 时 数据 的 读 取 
与 使 用 。 首 先导 入 一 些 库 ; 


In [1]: import time 











import numpy as np 

import pandas as pd 

import datetime as dt 

from pylab import mpl, plt 





In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 


smatplotlib inline 


其 次 ， 查 看 有 分 时 数据 的 产品 代码 〈 货币 组 合 ): 


In [3]: from fxcmpy import fxcmpy_tick_data_reader as tdr 


In [4]: print (tdr.get_available_symbols() ) 
("AUDCAD', 'AUDCHF', 'AUDJPY', 'AUDNZD', 'CADCHE', 'EURAUD', 'EURCHE', 
'EURGBP', 'BURJPY', 'EURUSD', 'GBPCHF', 'GBPJPY', 'GBPNZD', 'GBPUSD', 
'GBPCHF', 'GBPJPY', 'GBPNZD', 'NZDCAD', 'NZDCHF', 'NZDJPY', 'NZDUSD', 
"USDCAD', 'USDCHF', 'USDJPY') 


下 面 的 代码 用 于 读 取 某 个 产品 一 周 的 分 笔 交 易 数据 。 得 到 的 pandas 的 DataFrame 对 
BA 150 万 个 数据 行 : 


In [5]: start = dt.datetime (2018, 6, 25) © 
stop = dt.datetime (2018, 6, 30) © 











In [6]: td = tdr('EURUSD', start, stop) © 





In [7]: td.get_raw_data().info() @ 
<class 'pandas.core.frame.DataFrame'> 
Index: 1963779 entries, 06/24/2018 21:00:12.290 to 06/29/2018 
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20:59:00.6 
Data column 
Bid floa 
Ask floa 


07 


s (total 2 columns): 


t64 
t64 


dtypes: float64 (2) 
44.9+ MB 


memory usag 


e: 


In [8]: td.get_data().info() 
<class 'pandas.core.frame.DataFrame'> 


DatetimeInd 
2018-06-29 


ex: 


1963779 entries, 


20:59:00.607000 
s (total 2 columns): 


Data column 
Bid floa 
Ask floa 


t64 
t64 


dtypes: float64 (2) 
44.9 MB 


memory usag 


e: 


In [9]: td.get_data() .head() 


Out [9]: 
2018-06-24 
2018-06-24 
2018-06-24 
2018-06-24 
2018-06-24 


21 
215 
21% 
21 
21% 


200: 


00: 
00: 


2:00: 


00: 


12 
16. 
22. 
22 
23. 


© 


-290 


046 
846 


-907 
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Heere 


.1662 
.1662 
.1662 
.1662 
.1662 


Bid 


Ppp 


Ask 


.16660 
.16650 
.16658 
.16660 
.16663 


2018-06-24 21:00:12.290000 to 


O 读 取 数 据 文件 、 解 压 并 将 原始 数据 保存 在 DataFrame 对 象 (作为 结果 对 象 的 一 个 





属性 ) 中 。 





@ td.get_raw_qata() 方 法 返回 包含 原始 数据 的 DataFrame WR; 索引 值 仍然 是 字 


符 串 对 象 。 


© td.get_data () 方 法 返回 DataFrame 对 象 ， 其 索引 已 经 转换 为 DatetimeIndex。 


由 于 分 笔 交 易 数据 保存 在 Datar rame 对 象 中 ,所 以 选择 一 个 数据 子 集 实施 
析 任 务 就 很 简单 了 。 图 14-1 显示 从 该 子 集 得 到 的 中 间 价 图 表 以 及 一 条 简单 移动 平均 线 





(SMA ): 





In [10]: sub = td.get_data(start='2018-06-29 12:00:00', 


In [11]: sub.head() 


2018-06-29 
2018-06-29 
2018-06-29 
2018-06-29 
2018-06-29 


T2 


12: 
12: 


12 
12 


200: 
00: 
00: 
200: 
200: 


end='201] 


00 . 
00 . 
00 . 
00 . 
00 . 


011 
071 
079 
091 
205 


18-06-29 


Bid 
L.16497 


1.16497 
L.16497 


1.16495 





1.16496 


12:15:00') © 


Ask 
1.16498 
1.16497 
1.16498 
1.16498 
1.16498 





KIRAZ 





Fn 5 


IZ 


融 分 
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In [12]: sub['Mid'] = sub.mean(axis=1) @ 
In [13]: sub['SMA'] = sub['Mid'].rolling(1000).mean() © 


In [14]: sub[['Mid', 'SMA']].plot(figsize=(10, 6), lw=0.75); 
O 选择 完整 数据 集 的 一 个 子 集 。 
@ 从 买 人 价 和 卖 出 价 计算 中 间 价 。 
© 得 出 1000 笔 交 易 的 SMA 值 。 
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图 14-1 欧元 /美元 历史 分 笔 中 间 价 及 SMA 


14.2.2 EE K $k ( 蜡烛 图 ) 数据 


FXCM 还 提供 了 对 历史 K 线 (蜡烛 图 ) 数据 的 访问 (在 API 之 外 ), 也 就 是 访问 某 些 均 
匀 的 时 间 间 隔 中 的 数据 ， 包 括 买 入 与 卖 出 的 开盘 价 、 最 高 价 、 最 低 价 和 收盘 价 。 


首先 查看 提供 蜡烛 图 数据 的 可 用 产品 代码 : 


In [15]: from fxcmpy import fxcmpy candles data reader as cdr 








In [16]: print (cdr.get_available_symbols() ) 
("AUDCAD', 'AUDCHF', 'AUDJPY', 'AUDNZD', 'CADCHF', 'BURAUD', 'EURCHF' 
"EURGBP', 'EURJPY', 'EURUSD', 'GBPCHF', 'GBPJPY', 'GBPNZD', 'GBPUSD', 
"GBPCHE', 'GBPJUPY', 'GBPNZD', 'NZDCAD', 'NZDCHF', 'NZDJPY', 'NZDUSD', 
"USDCAD', 'USDCHF', 'USDJPY') 
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其 次 是 读 取 数据 ， 这 与 分 笔 数 据 读 取 类 似 。 唯 一 的 区 别 是 需要 指定 period 值 一 一 数 
HAKE (例如 ，mil 为 一 分 钟 ，H1 为 一 小 时 ，D1 为 一 天 ): 


In [17]: start = dt.datetime (2018, 5, 1) 
stop = dt.datetime(2018, 6, 30) 


In [18]: period = 'H1' © 





19]: candles = cdr('EURUSD', start, stop, period) 
20]: data = candles.get_data() 











In [21]: data.info() 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 1080 entries, 2018-04-29 21:00:00 to 2018-06-29 





20:00:00 

Data columns (total 8 columns): 

BidOpen 1080 non-null float64 
BidHigh 1080 non-null float64 
BidLow 1080 non-null float64 
BidClose 1080 non-null float64 
AskOpen 1080 non-null float64 
AskHigh 1080 non-null float64 
AskLow 1080 non-null float64 
AskClose 1080 non-null float64 

















dtypes: floaté64 (8) 
memory usage: 75.9 KB 





In [22]: data[data.columns[:4]].tail() @ 

Out [22]: BidOpen BidHigh BidLow BidClose 
2018-06-29 16:00:00 1.16768 1.16820 1.16731 1.16769 
2018-06-29 17:00:00 1.16769 1.16826 1.16709 1.16781 
2018-06-29 18:00:00 1.16781 1.16816 1.16668 1.16684 
2018-06-29 19:00:00 1.16684 1.16792 1.16638 1.16774 
2018-06-29 20:00:00 1.16774 1.16904 1.16758 1.16816 

In [23]: data[data.columns[4:]].tail() ® 

Out [23]: AskOpen AskHigh AskLow AskClose 
2018-06-29 16:00:00 1.16769 1.16820 1.16732 1.16771 
2018-06-29 17:00:00 1.16771 1.16827 1.16711 1.16782 
2018-06-29 18:00:00 1.16782 1.16817 1.16669 1.16686 
2018-06-29 19:00:00 1.16686 1.16794 1.16640 1.16775 
2018-06-29 20:00:00 1.16775 1.16907 1.16760 1.16861 


@ 指定 period fË. 
@ 开盘 、 最 高 、 最 低 、 收 盘 买 人 价 。 
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© 开盘 、 最 高 、 最 低 、 收 盘 卖 出 价 。 
本 节 的 最 后 用 以 下 代码 来 计算 收盘 中 间 价 和 两 个 SMA， 并 绘制 结果 图 表 ( 见 图 14-2 ): 


In [24]: data['MidClose'] = data[['BidClose', 'AskClose']].mean(axis=1) © 





In [25]: data['SMA1'] = data['MidClose'].rolling(30).mean() @ 
data['SMA2'] = data['MidClose'].rolling(100).mean() @ 


In [26]: data[['MidClose', '"SMA1', 'SMA2']].plot(figsize=(10, 6)); 


© Sess AB SEH OTE ACE PEI BP o 
@ 计算 两 条 SMA， 一 条 用 于 较 短 的 时 间 间 隔 ， 一 条 用 于 较 长 的 时 间 间 隔 。 





= MidClose 
— SMAI1 
— SMA2 


1.21 














图 14-2 ”欧元 /美元 每 小 时 历史 收盘 价 及 两 条 SMA 


14.3 ”使 用 API 


14.2 节 介绍 了 FXCM 服务 器 上 预先 打包 的 历史 分 笔 数据 和 蜡烛 图 数据 的 读 取 方 法 ， 
本 节 将 介绍 如 何 通 过 APT 读 取 历史 数据 。 为 此 ， 我 们 需要 一 个 FXCM API 的 连接 对 
象 。 首先 导入 fxcmpy E, 将 其 连接 到 API ( 基于 唯一 的 API 令 牌 ) 并 查看 可 用 的 金 
融 工具 : 

















In [27]: import fxcmpy 


In [28]: fxcmpy.__version__ 
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Out [28 
In [29 
In [30 
In [31 








Mk 337 
api = fxcmpy.fxcmpy(config_file='../fxcm.cfg') © 
instruments = api.get_instruments () 


print (instruments) 
['EUR/USD', 'XAU/USD', 'GBP/USD', 'UK100', 'USDOLLAR', 'XAG/ 


USD', 'GER30', 





"AUD/JPY', 


"FRA40', 'USD/CNH', 'EUR/JPY', 'USD/JPY', 'CHN50', 'GBP/JPY', 


"CHF/JPY', 'USD/CHF', 'GBP/CHF', 'AUD/USD', 'EKUR/AUD', 'EUR/CHF', 
"EUR/CAD', 'EUR/GBP', 'AUD/CAD', 'NZD/USD', 'USD/CAD', 'CAD/JPY"', 
"GBP/AUD', 'NZD/JPY', 'US30', 'GBP/CAD', 'SOYF', 'GBP/NZD', 'AUD/NZD', 
"USD/SEK', 'EUR/SEK', 'EUR/NOK', 'USD/NOK', 'USD/MXN', 'AUD/CHF', 
'EUR/NZD', 'USD/ZAR', 'USD/HKD', 'ZAR/JPY', 'BTC/USD', 'USD/TRY', 
"EUR/TRY', 'NZD/CHF', 'CAD/CHF', 'NZD/CAD', 'TRY/JPY', 'AUS200', 
'ESP35', 'HKG33', 'JPN225', 'NAS100', 'SPX500', 'Copper', 'EUSTX50', 
'USOil', 'UKOil', 'NGAS', 'Bund'] 























@ 连接 到 API; 调整 路 径 /文件 名 。 
14.3.1 读 取 历史 数据 


一 旦 连接 , H 














体 时 段 数据 的 读 取 通过 一 次 方法 调用 即 可 实现 。 使 用 get_candles () 























FEW, period 参数 可 以 是 : m1, m5, m15, m30, H1, H2, H3, H4, H6, H8, 
D1, W1 或 M1。 以 下 代码 给 出 了 几 个 例子 。 图 14-3 展示 了 欧元 /美元 工具 ( 货币 组 合 ) 
收盘 买 入 价 的 一 分 钟 分 时 线 : 


In [32]: 
In [331s 
Out [33] : 











candles = api.get_candles ('USD/JPY', period='D1', number=10) © 


candles[candles.columns[:4]] © 

bidopen bidclose bidhigh bidlow 
date 
2018-10-08 21:00:00 113.760 113.219 113.937 112.816 
2018-10-09 21:00:00 113.219 112.946 113.386 112.863 
2018-10-10 21:00:00 112.946 112.267 113.281 112.239 
2018-10-11 21:00:00 112.267 112.155 112.528 111.825 
2018-10-12 21:00:00 112.155 112.200 112.491 111.873 
2018-10-14 21:00:00 112.163 112.130 112.270 112.109 
2018-10-15 21:00:00 112.130 111.758 112.230 111.619 
2018-10-16 21:00:00 112.151 112.238 112.333 111.727 
2018-10-17 21:00:00 112.238 112.636 112.670 112.009 
2018-10-18 21:00:00 112.636 112.168 112.725 111.942 
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In [34]: candles[candles.columns[4:]] © 
Out [34]: askopen askclose askhigh asklow tickqty 
date 
2018-10-08 21:00:00 113.840 113.244 113.950 112.827 184835 
2018-10-09 21:00:00 113.244 112.970 113.399 112.875 321755 
2018-10-10 21:00:00 112.970 112.287 113.294 112.265 329174 
2018-10-11 21:00:00 112.287 112.175 112.541 111.835 568231 
2018-10-12 21:00:00 112.175 12.243 112.504 111.885 363233 
2018-10-14 21:00:00 112.219 12.181 112.294 112.145 581 
2018-10-15 21:00:00 112.181 111.781 112.243 111.631 322304 
2018-10-16 21:00:00 112.163 12.271 112.345 111.740 253420 
2018-10-17 21:00:00 112.271 112.664 112.682 112.022 542166 
2018-10-18 21:00:00 112.664 112.237 112.738 111.955 369012 
In [35]: start = dt.datetime(2017, 1, 1) @ 
end = dt.datetime(2018, 1, 1) @ 
In [36]: candles = api.get_candles('EUR/GBP', period='D1', 
start=start, stop=end) @ 
In [37]: candles.info() @ 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 309 entries, 2017-01-03 22:00:00 to 2018-01-01 22:00:00 
Data columns (total 9 columns): 
bidopen 309 non-null float64 
bidclose 309 non-null float64 
bidhigh 309 non-null float64 
bidlow 309 non-null float64 
askopen 309 non-null float64 
askclose 309 non-null float64 
askhigh 309 non-null float64 
asklow 309 non-null float64 
tickqty 309 non-null int64 
dtypes: float64(8), int64(1) 
memory usage: 24.1 KB 
In [38]: candles = api.get_candles('EUR/USD', period='m1', number=250) © 
In [39]: candles['askclose'].plot (figsize=(10, 
读 取 最 近 的 10 个 日 终 价格 。 
读 取 全 年 的 日 终 价 格 。 
读 取 最 近 可 用 的 一 分 钟 价格 。 
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14.3.2 imate 

虽然 历史 数据 很 重要 ( 例如 对 算法 交易 策略 的 事后 检验 )， 但 持续 访问 实时 或 者 流 数 据 
在 交易 时 间 内 ) 是 部 署 和 自动 化 算法 交易 策略 所 必需 的 。FXCM API 可 以 订阅 所 有 金 
融 工具 的 实时 数据 流 。fxcmpy 包装 器 库 支持 这 一 功能 ， 人 允许 用 户 提 供 自 定义 函数 (所 
谓 的 “回调 函数 ”) 以 处 理 实时 数据 流 。 


以 下 代码 展示 了 一 个 简单 的 回调 函数 ， 它 仅仅 打印 在 读 取 数 据 集中 选择 的 元 素 ， 并 在 
订阅 所 需 金融 工具 (这 时 是 欧元 /美元 ) 之 后 用 其 实时 处 理 数据 : 


In [40]: def output (data, dataframe) : 
print ('%3d | $s | $s | %6.5f, %6.5f' 
% Ce oe data['Symbol'], 
pd.to_datetime (int (data['Updated']), unit='ms"'), 














a 








到 | 























data['Rates'][0], data['Rates'][1])) © 
In [41]: api.subscribe_market_data('EUR/USD', (output,)) @ 
Í EUR/USD 2018-10-19 11:36:39.735000 1.14694, 1.14705 
2 EUR/USD 2018-10-19 11:36:39.776000 1.14694, 1.14706 
3 EUR/USD 2018-10-19 11:36:40.714000 1.14695, 1.14707 
4 EUR/USD 2018-10-19 11:36:41.646000 1.14696, 1.14708 
5 EUR/USD 2018-10-19 11:36:41.992000 1.14696, 1.14709 
6 EUR/USD 2018-10-19 11:36:45.131000 1.14696, 1.14708 
7 EUR/USD 2018-10-19 11:36:45.247000 1.14696, 1.14709 
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In [42]: api.get_last_price('EUR/USD') © 


Out [42]: Bid 1.14696 
Ask 1.14709 
High 1.14775 
Low 1.14323 


Name: 2018-10-19 11:36:45.247000, dtype: float64 


In [43]: api.unsubscribe_market_data('EUR/USD') @ 
8 | EUR/USD | 2018-10-19 11:36:48.239000 | 1.14696, 1.14708 


@ 可 打印 读 取 数 据 集中 茶 些 元 素 的 回调 函数 。 

@ 订阅 特定 实时 数据 流 ; 只 要 没有 “解除 订阅 ”事件 ， 就 异步 处 理 数据 。 
© 订阅 期 间 ，get_last_price() 方 法 返回 最 新 的 可 用 数据 集 。 
@ 解除 实时 数据 流 订阅 。 

















回调 函数 

回调 函数 是 基于 一 个 或 者 多 个 Python 函数 来 处 理 实时 流 数据 的 灵活 
手段 。 它 们 可 用 于 输入 数据 打印 等 简单 任务 ， 也 可 以 用 于 根据 在 线 交 
易 算 法 ( 见 见 第 16 章 ) 生成 买卖 信号 等 复杂 任务 。 





14.3.3 TĚ 


FXCM API 可 以 进行 FXCM 交易 应 用 中 的 各 类 交易 〈 如 进 场 单 或 移动 止 损 单 ) 并 对 

其 进行 管理 。 但 是 ， 下 面 的 代码 只 介绍 基本 的 市 场 买卖 单 ， 一 般 来 说 ， 这 对 算法 交 
易 入 门 就 已 经 足够 了 。 我 们 首先 确认 没有 开 仓 头寸 ， 然 后 建立 不 同 的 头寸 (通过 
creat_market_buy_order () 方 法 ), 















































In [44]: api.get_open_positions() © 
Out[44]: Empty DataFrame 

Columns: [] 

Index: [] 


In [45]: order = api.create_market_buy_order('EUR/USD', 10) @ 





In [46]: sel = ['tradeId', ‘amountK', 'currency', 
"grossPL', ‘isBuy'] © 


In [47]: api.get_open positions () [sel] ® 
Out [47]: tradeId amountK currency grossPL isBuy 
O 132607899 10 EUR/USD 0.17436 True 

















In [48]: order = api.create_market_buy_order('EUR/GBP', 5) @ 
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In [49]: 


api.get_open_positions () 





Out [49]: tradeld 
0 132607899 10 
1 132607928 3 
O 显示 连接 (默认 ) 账户 的 开 仓 头 才 。 


@ 在 欧元 /美元 


货币 组 


© 仅 显示 开 仓 头寸 中 选择 的 要 素 。 
re ZAG PREZ 5 万 个 单位 的 头 才 。 


O 在 欧元 /美元 货 


create_market_buy_order () 








[sel] 


amountK currency grossPL 


EUR/USD 0.17436 
EUR/GBP -1.53367 





合 中 建立 10 万 个 单位 的 头寸 。 























isBuy 


rue 





True 


O 函数 用 于 建立 或 者 增加 头寸 ， 而 create_market_ 





sell_order () 函数 用 于 平 仓 或 者 减少 头寸 。 平 仓 还 有 更 通用 的 方法 ， 如 以 下 代码 所 示 : 
In [50]: order = api.create_market_sell_order('EUR/USD', 3) © 
In [51]: order = api.create_market_buy_order('EUR/GBP', 5) @ 
In [52]: api.get_open_positions() [sel] © 
Out [52] tradeId amountK currency grossPL isBuy 
0 132607899 10 EUR/USD 0.17436 True 
1 132607928 5 EUR/GBP -1.53367 True 
2 132607930 3 EUR/USD -1.33369 False 
3 132607932 5 EUR/GBP -1.64728 True 
In [53]: api.close_all_for_symbol('EUR/GBP') @ 
In [54]: api.get_open_positions () [sel] 
Out [54] tradeId amountK currency grossPL isBuy 
0 132607899 10 EUR/USD 0.17436 True 
1 132607930 3 EUR/USD -1.33369 False 
In [55]: api.close_all() © 
In [56]: api.get_open_positions () 
Out [56]: Empty DataFrame 
Columns: [] 
Index: [] 
O 减少 欧元 /美元 货币 组 合 头寸 。 
@ 增加 欧元 /英镑 货币 组 合 头寸 。 
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PEMA eT AR BL, KKA 

















量 为 1000 的 倍数 。 注意 ,不同 账户 可 能 











有 不 同 的 杠杆 比 





Ko 这 意味 着 根据 相关 杠杆 比率 , 相同 的 头寸 可 能 需要 o 的 保证 金 。 在 必要 时 将 例子 中 的 数 











量 调整 到 较 低 值 。 


一 一 原 注 























AK 
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© 欧元 /英镑 现在 有 两 个 多 头头 寸 ; 与 欧元 /美元 头寸 相反 ， 它 们 没有 一 利 。 


© close_all_for_symbol () 方 法 平 掉 指定 代码 的 所 有 仓位 。 


© close_all () 方 法 平 掉 所 有 开 仓 。 


14.3.4 


除了 建仓 之 外 ，FXCM API 也 可 以 读 取 更 多 常规 账户 信息 。 例 如 ,用户 可 以 查询 默认 账 
户 〈《 如 果 有 多 个 账户 8 


In 








账户 信息 


Nie), BRE Ese OL 





: api.get_default_account() © 

: 1090495 

: api.get_accounts().T @ 

0 

accountId 1090495 
accountName 01090495 
balance 4915.2 
dayPL -41.97 
equity 4915.2 
grossPL 0 
hedging Y 
mc N 
mcDate 
ratePrecision 0 
t 6 
usableMargin 4915.2 
usableMargin3 4915.2 
usableMargin3Perc 100 
usableMarginPerc 100 
usdMr 0 
usdMr3 0 


@ 显示 默认 accountId 值 。 
@ 显示 所 有 账户 的 财务 状况 和 一 些 参数 。 





14.4 


结语 


本 章 介 绍 了 FXCM 月 





于 算法 交易 的 REST API， 涵 盖 以 下 主题 : 


。 API 使 用 前 的 准备 ; 
© ” 读 取 历史 分 笔 数据 ; 
。 ŠPE K 线 数据 ; 








14.4 


结语 
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。 ” 读 取 实时 流 数据 ; 

。 下 单 买卖 ; 

。 ”查询 账户 信息 。 

FXCM API 和 fxcmpy 包装 器 库 当 然 还 提供 其 他 功能 ， 但 上 述 功能 是 开始 算法 交易 所 需 
的 基本 组 件 。 





























14.5 延伸 阅读 


关于 FXCM 交易 API 和 Python 包装 需 库 的 更 多 细节 ， 请 参考 以 下 文档 : 
e Trading API; 





e ”fxcmpy 库 。 
Python 算法 交易 的 全 面 在 线 培训 计划 请 参见 Python Quants 官网 。 
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第 15 章 


DUD 





他 们 真 傻 ， 以 为 可 以 从 过 去 预知 未 来 。 


一 一 《经 济 学 家 》 杂 志 " 























本 章 介绍 的 是 算法 交易 策略 的 向 量化 事后 检验 。 算 法 交易 策略 一 词 用 于 描述 任何 
基于 算法 、 在 没有 人 工 干 预 情况 下 自行 决定 金融 产品 多 头 、 空 投 或 中 立 头 十 的 金 
融 交 易 策 略 。 简 单 算 法 如 “每 隔 五 分 钟 对 苹果 公司 股票 交替 建立 多 头 和 中 立 头 寸 ” 
就 满足 上 述 定 义 。 对 于 本 章 的 目的 ， 从 技术 上 说 ， 算 法 交易 策略 由 一 些 Python 代 
码 表示 ， 根 据 新 数据 决定 买 人 或 者 卖 出 某 个 金融 工具 ， 以 便 建 立 多 头 、 空 头 或 者 
中 立 头 寸 。 

本 章 不 提供 算法 交易 策略 的 概述 (15.9 节 列 出 了 更 详细 的 介绍 算法 交易 策略 的 参考 资 
料 )， 而 是 将 焦点 放 在 精 选 的 几 个 此 类 算法 向 量化 事后 检验 的 技术 特征 上 。 利 用 这 种 方 
法 ,通常 可 以 将 检验 策略 的 金融 数据 当成 一 个 总 体 来 操纵 ， 然 后 对 保存 金融 数据 的 
NumPy 的 ndarray fil pandas 的 DataFrame 对 象 应 用 向 量化 操作 。” 

本 章 的 另 一 个 重点 是 应 用 机 器 和 深度 学 习 算 法 来 设计 算法 交易 策略 。 为 此 ， 将 分 类 算 
法 在 历史 数据 上 进行 训练 ， 以 预测 未 来 的 市 场 方向 变动 。 这 通常 要 求 将 实 值 金融 数据 
变换 为 相对 少量 的 分 类 值 ， 使 我 们 能 够 利用 此 类 算法 的 模式 识别 能 

本 章 分 为 以 下 几 部 分 : 
















































































1 VR: “Does the Past Predict the Future?”, Economist 官网 ，2009 年 9 H 23 日 。 一 一 原 注 

2 另 一 种 蔡 代 方法 基于 事件 的 事后 检验 , 这 种 方法 将 在 每 个 新 数据 点 上 显 式 循环 , 模拟 市 场 新 数据 点 
的 到 来 。 一 一 原 注 

3 注意 , 使 用 实 值 时 , 每 种 模式 都 可 能 是 独特 或 者 罕见 的 , 难以 训练 一 种 算法 并 从 观察 到 的 模式 中 得 
出 任何 结论 。 一 一 原 注 
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1§ PED FIR 

本 节 的 重点 是 基于 简单 移动 平均 数 的 算法 交易 策略 ， 以 及 这 种 策略 的 事后 检验 。 
KB PU ip xe NR 

本 节 介 绍 随机 游 走 假设 。 
At OLS 回归 

本 节 人 研究 使 用 OLS 回归 得 出 算法 交易 策略 的 方法 。 














RR 
本 节 探讨 使 用 无 监督 学 习 算法 得 出 算法 交易 策略 的 方法 。 
本 节 介绍 算法 交易 的 一 种 简单 频率 论 方法 。 

分 类 


本 节 将 介绍 用 于 算法 交易 的 机 顺 学 习 分 类 算法 。 
REALE I 5 


本 节 重 点 介绍 深度 神经 网 络 ， 以 及 如 何 将 其 用 于 算法 交易 。 


15.1 简单 移动 平均 数 


基于 简单 移动 平均 数 (SMA ) 的 交易 方法 已 经 有 数 十 年 的 历史 ( 可 以 参见 Brock 等 人 
的 文章 ( 1992 ) )。 虽然 许 多 交易 者 在 自主 交易 中 使 用 SMA, 但 也 可 以 将 其 用 于 设计 简 
单 的 算法 交易 策略 。 本 章 用 SMA 介绍 算法 交易 策略 的 向 量化 事后 检验 ,基础 是 第 8 章 
的 技术 分 析 示 例 。 


15.1.1 数据 导入 
首先 进行 一 些 导入 工作 : 


In [1]: import numpy as np 



































import pandas as pd 
import datetime as dt 
from pylab import mpl, plt 


In [2]: plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 
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其 次 ， 读 取 原 始 数据 并 选择 苹果 公司 股票 (AAPL.0 ) 的 金融 时 间 序 列 。 本 节 的 分 析 基 


于 日 终 数据 ; 


In [3]: 


In [4]: 


In [5]: 


In [6]: 


15.1.2 





日 内 数据 用 于 后 续 的 几 节 。 


raw = pd.read_csv('../../source/tr_eikon_eod_data.csv', 
index_col=0, parse _dates=True) 


raw.info() 





<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 2216 entries, 2010-01-01 to 2018-06-29 
Data columns (total 12 columns): 
AAPL.O 2138 non-null float64 
MSFT.O 2138 non-null floaté4 
INTC.O 2138 non-null float64 
AMZN.O 2138 non-null floaté4 

GS.N 2138 non-null float64 

SPY 2138 non-null floaté4 

-SPX 2138 non-null float64 

.VIX 2138 non-null float64 

EUR= 2216 non-null float64 

XAU= 2211 non-null float64 

GDX 2138 non-null float64 

GLD 2138 non-null floaté4 




















dtypes: float64 (12) 
memory usage: 225.1 KB 


symbol = 'AAPL.O' 
data = ( 


pd.DataFrame (raw [symbol] ) 
.dropna () 


交易 策略 


接 下 来 , 为 两 种 不 同 的 滚动 窗口 大 小 计算 SMA 值 。 图 15-1 直观 地 展示 了 这 3 个 时 间 序 列 : 


In [7 
In [8 
In [9 

















SMA1 = 42 © 
SMA2 = 252 @ 
data['SMA1'] = data[symbol].rolling(SMA1).mean() © 
data['SMA2'] = data[symbol].rolling(SMA2).mean() @ 


data.plot (figsize=(10, 6)); 


o 计算 短期 SMA 值 。 
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@ 计算 长 期 SMA 值 。 





150 














100 
75 
50 
25 
a X W? W? a w? ° 49> NA 
Date 
图 15-1 苹果 股价 与 两 条 简单 移动 平均 线 
最 后 得 出 头寸 。 交 易 规则 是 ; 
。 短期 SMA 在 长 期 SMA ŽERA (=+1 ); 
。 ”短期 SMA 在 长 期 SMA 之 下 时 卖 出 (=-1) |. 
头寸 的 可 视 化 结果 如 图 15-2 所 示 : 
In [10]: data.dropna (inplace=True) 
In [11]: data['Position'] = np.where(data['SMA1'] > data['SMA2'], 1, -1) © 
In [12]: data.tail() 
Out [12]: AAPL.O SMA1 SMA2 Position 


Date 

2018-06-25 182.17 185.606190 168.265556 
2018-06-26 184.43 186.087381 168.418770 
2018-06-27 184.16 186.607381 168.579206 
2018-06-28 185.50 187.089286 168.736627 
2018-06-29 185.11 187.470476 168.901032 


PPP rPP 


In [13]: ax = data.plot (secondary_y='Position', figsize=(10, 6)) 
ax.get_legend() .set_bbox_to_anchor((0.25, 0.85)); 





1 类 似 地 ， 对 于 仅 多 头 策略 ， 将 以 1 代表 多 头头 寸 ，0 代表 中 立 头 寸 。 一 一 原 注 
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O np.where (cond, a, b) 逐个 元 素 地 计算 条 件 cond, WEN True With a, F 


则 设 值 pb。 





200 


180 
AAPL.O 
SMAI 
SMA2 
140 Position (right) 


160 


120 
100 
80 


60 





Ba 
s 


os” 


Date 


49° 


a 
> i 


mA 





A 








图 15-2 ”苹果 公司 股价 、 两 条 SMA 以 及 结果 头寸 
以 上 复制 了 第 8 章 得 出 的 结果 。 但 当时 没有 说 明 ， 遵 循 交易 规则 操作 也 就 是 实施 算法 
交易 策略 能 否 得 到 比 基 准 〈 在 整 段 期 间 里 看 多 苹果 股票 ) 更 好 的 结果 。 鉴 于 这 种 策略 
只 在 两 段 时 间 里 指示 卖 出 苹果 股票 ， 所 以 只 有 这 两 段 时 期 产生 了 绩效 上 的 差别 。 
15.1.3 向 量化 事后 检验 
现在 , 向 量化 事后 检验 可 以 按照 以 下 方式 实施 。 首 先 计算 对 数 收 益 率 。 然 后 将 头寸 (以 











+1 或 者 -1 表示 ) 乘 以 对 应 的 对 数 回 报 率 。 这 种 简单 的 计算 是 可 能 的 ， 因 为 多 头头 才 赚 
二 的 是 伴 果 股票 的 负 收 益 。 最 终 ， 将 苹果 公司 





取 的 是 苹果 股票 的 正 收益 ， 而 空头 头寸 赚 
股票 的 对 数 收益 率 与 基于 SMA 的 算法 交易 策略 加 总 ， 并 对 其 应 用 指数 函数 以 得 出 





In [14]: data['Returns'] 


In [15]: data['Strategy'] 


In [16]: data.round(4) .head() 












































1 绩效 : 


= np.log(data[symbol] / data[symbol].shift(1)) © 


= data['Position'].shift (1) 


* data['Returns'] @ 





Out [16]: AAPL.O SMA1 SMA2 Position Returns Strategy 
Date 
2010-12-31 46.0800 45.2810 37.1207 1 NaN NaN 
2011-01-03 47.0814 45.3497 37.1862 1 0.0215 0.0215 
2011-01-04 47.3271 45.4126 37.2525 1 0.0052 0.0052 
2011-01-05 47.7142 45.4661 37.3223 1 0.0081 0.0081 
2011-01-06 47.6757 45.5226 37.3921 1 -0.0008 -0.0008 
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In [17]: data.dropna(inplace=True) 


In [18]: np.exp(data[['Returns', 'Strategy']].sum()) ® 
Out [18]: Returns 4.017148 
Strategy 5.811299 


dtype: float64 


In [19]: data[['Returns', 'Strategy']].std() * 252 ** 0.5 @ 
Out [19]: Returns 0.250571 

Strategy 0.250407 

dtype: float64 


O 计算 评估 公司 股票 的 对 数 收益 率 〈 即 基准 投资 )。 

@ 将 头寸 值 ( 移 位 一 天 ) 乘 以 苹果 公司 的 对 数 收益 率 ; 移 位 是 避免 后 见 偏差 所 必需 的 。 
@ 加 总 策略 的 对 数 回报 率 和 基准 投资 ， 计 算 其 指数 值 以 得 出 绝对 绩效 。 

@ 计算 策略 与 基准 投资 的 年 化 波动 率 。 

这 些 数字 说 明 ， 算 法 交易 策略 确实 胜 过 被 动 持 有 苹果 股票 的 基准 投资 。 由 于 策略 的 类 
型 和 特性 以 及 年 化 波动 率 相同 ， 所 以 策略 本 身 也 胜 过 风险 调整 基础 上 的 基准 投资 。 

为 了 更 好 地 理解 总 体 绩效 ， 图 15-3 展示 了 苹果 公司 股票 及 算法 交易 策略 在 一 段 时 间 里 
的 表现 : 














— Returns 
5 — Strategy 





Date 


图 15-3” 芋 果 公司 股票 及 基于 SAM 的 交易 策略 在 一 段 时 间 内 的 表现 

















1 基本 思路 是 ， 这 种 算法 只 能 按照 当天 的 市 场 数据 ( 例如 ， 收 盘 前 一 刻 ) 建立 苹果 股票 头寸 。 然 后 ， 
这 一 头寸 赚 取 的 是 明天 的 收益 。 一 一 原 注 
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In [20]: ax data[['Returns', 


) .apply (np.exp) .plot (figsize=(10, 


data['Position'].plot (ax=ax, se 


ax.get_legend().set_bbox_to_anchor((0.25, 





简化 


AN th 
NEN 


费用 、 买 卖 价差 、 











法 应 该 考虑 这 些 因素 和 其 他 (市 


15.1.4 优化 


人 们 自然 会 问 ， 选 择 参 数 SMA1=42 和 SMA2=25 


少数 交易 的 交易 策略 来 说 , 这 可 能 


'Strategy']] .cumsum ( 


6) ) 
condary_y='Position', style='--"') 
0.85)); 


本 节 介 绍 的 向 量化 事后 检验 方法 基于 一 些 简化 假设 。 交 易 成 本 ( 固定 
成 本 等 ) 没有 包含 在 内 。 对 于 在 多 年 内 只 导致 


是 合理 的 。 更 为 真实 的 事后 检验 方 


场 微观 结构 ) AR. 


2 是 否 “正确 "。 一 般 来 说 ， 投 资 者 硕 





望 在 其 他 条 件 相同 的 情况 下 得 到 更 高 的 收益 。 因 此 ， 他 们 可 能 倾向 于 寻找 最 大 化 对 应 











时 期 内 收益 的 参数 。 为 此 ， 可 以 使 用 暴力 方法 ， 





由 





对 不 同 参 数组 合并 重复 整个 向 量化 





， 然 后 进行 排名 。 


from itertools import product 


后 检验 过 程 ， 记 录 结 果 
In [21]: 


oO 
10) 


in [22]: 


| 


61, 4) 
281, 


smal range (20, 


e 


ll 


sma2 range (180, 


results pd.DataFrame () 
for SMAI, 
dat 
da 
data['Returns'] 
data['SMA1'] 
ta['SMA2"] 
ta.dropna (inplace=True 


In [23]: 


a 


ta.dropna (inplace=True) 


data['Position"] np.where 
data['Strategy'] = data['Po 
da 


perf 





ta.dropna (inplace=True 


np.exp (data [ 
= results .append 
{'SMA1': 
'MARKE 
'STRATEGY'!': 


results 








re 





SMA2 in product (smal, 


sition'].shift (1) 


"Returns', 


SMA1 





"OUT ' : 


index= 


perf 
01), 





O 指定 SMA1 参数 值 。 


下 面 的 代码 就 用 于 实现 这 个 功能 : 


© 


sma2): 


pd.DataFrame (raw[symbol] ) 


np.log(data[symbol] / data[symbol].shift (1) ) 
data[symbol] .rolling(SMA1) .mean () 
data [symbol] .rolling (SMA2) .mean () 


(data['SMA1'] > data['SMA2'], 1, -1) 
* data['Returns'] 


"Strategy']].sum()) 
pd.DataFrame ( 
"SMA2': SMA2, 


7 


perf['Returns'], 


perf['Strategy'], 
— perf['Returns']}, 


© 


'Strategy'] 


ignore_index=True) 
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@ 指定 SMA2 参数 值 。 

© 组 合 所 有 SMA1 和 SMA2 值 。 

O 将 向 量化 事后 检验 结果 记录 在 一 个 DataFrame 对 象 。 

下 面 的 代码 给 出 结果 的 概要 ， 并 显示 事后 检验 中 绩效 最 佳 的 7 个 参数 组 合 。 排 名 

















的 根据 是 算法 交易 策略 绩效 与 基准 投资 相 比 胜出 的 比例 。 由 于 SMA2 参数 的 选择 
影响 时 间 间 隔 长 度 和 实施 向 量化 事后 检验 的 数据 集 ， 因 此 基准 投资 的 绩效 也 各 不 


相同 : 


Tn f 


Inf 
Out [ 


24): 


25]: 
25 )°3 





results.info() 
<class 'pandas.core.frame.DataFrame'> 





RangeIndex: 121 entries, 0 to 120 
Data columns (total 5 columns): 
SMA1 121 non-null int64 
SMA2 121 non-null int64 
MARKET 121 non-null float64 
STRATEGY 21 non-null float64 
OUT 121 non-null float64 





dtypes: float64(3), int64(2) 
memory usage: 4.8 KB 


results.sort_values('OUT', ascending=False) .head(7) 











SMA1 SMA2 MARKET STRATEGY OUT 
56 40 190 4.650342 7.175173 2.524831 
39: 32 240 4.045619 6.558690 2.513071 
59 40 220 4.220272 6.544266 2.323994 
46 36 200 4.074753 6.389627 2.314874 
55 40 180 4.574979 6.857989 2.283010 
70 44 220 4.220272 6.469843 2.249571 
101 56 200 4.074753 6.319524 2.244772 


根据 基于 暴力 法 的 优化 结果 ，SMA1=40 和 SMA2=190 是 最 优 参数 ， 绩 效 比 基准 高 出 
230%。 但 是 ， 

















这 一 结果 严重 依赖 使 用 的 数据 集 ， 因 此 很 容易 导致 过 度 拟 合 。 更 为 严格 











的 方法 是 在 一 个 数据 集 (样本 内 或 者 训练 数据 集 ) 上 实施 优化 ,并 在 另 一 个 数据 集 ( 样 
| 试 数据 集 ) 上 检验 。 





AR Shave 




















过 度 拟 合 

一 般 来 说 ， 算 法 交易 策略 背景 下 任何 类 型 的 优化 、 拟 合 或 者 训练 都 
很 容易 导致 过 度 拟 合 。 这 意味 着 ， 选 择 的 参数 可 能 对 于 使 用 的 数据 
集 表现 (HF) 良 好， 但 在 其 他 数据 集 或 者 实践 中 却 表 现 (HF) 
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15.2 ”随机 游 走 假设 

前 一 节 介 绍 了 向 量化 事后 检验 ， 它 是 算法 交易 策略 事后 检验 的 有 效 工 具 。 我 们 检验 的 
策略 基于 单一 金融 时 间 序 列 苹果 公司 股票 的 历史 日 终 价格 ， 该 策略 的 绩效 好 于 同 
期 简单 看 多 苹果 公司 股票 的 基准 投资 。 

虽然 本 质 上 很 清楚 , 但 这 些 结果 与 随机 游 走 假设 (RWH ) 的 预测 相反 。 根据 这 种 假设 ， 
此 类 预测 性 方法 完全 不 应 该 得 到 任何 效益 上 的 增长 。RWH 假设 金融 市 场 中 的 价格 遵循 
随机 游 走 模 式 ， 或 者 在 连续 的 时 间 里 呈 无 漂移 的 算术 布朗 运动 。 未 来 任何 时 间 点 ,无 
漂移 算术 布朗 运动 的 预期 值 等 于 今天 的 值 。 因 此 ,从 最 小 二 乘法 的 意义 上 , 如果 RWH 
成 立 ， 对 明日 价格 的 最 佳 预测 就 是 今日 的 价格 。 

以 下 引 语 总 结 了 这 些 结果 : 


多 年 以 来 ， 经 济 学 家 、 统 计 学 家 和 人 金融 教师 都 对 开发 和 检验 股票 价格 表现 模 
型 很 感 兴趣 。 随 机 游 走 理论 就 是 从 这 种 研究 中 演化 出 来 的 重要 模型 之 一 。 这 一 
理论 对 其 他 许多 描述 与 预测 股价 表现 的 理论 持 严 重 怀疑 的 态度 ， 尽 管 后 者 在 学 
术 界 之 外 相当 流行 。 例 如 ， 我 们 以 后 将 会 看 到 ， 如 果 随 机 游 走 是 对 现实 的 精确 
描述 ， 那 么 各 种 预测 股价 的 “技术 ”或 者 “图 表 ” 方 法 都 将 变 得 毫 无 价值 。 
——Eugene F. Fama (1965) 


RWH 与 有 效 市 场 假设 (EMH) 一 致 ， 用 非 技 术 性 的 话说 ， 后 者 假设 市 场 价格 反映 了 
“所 有 可 用 信息 ”。 通 常 要 区 分 不 同 的 市 场 有 效 度 ， 如 “ 弱 *”“ 半 强 ” 和 “ 强 ”， 可 以 更 
加 明确 地 定义 “所 有 可 用 信息 ”的 涵盖 范围 。 从 形式 上 说 ， 这 样 的 定义 可 以 基于 理论 
上 的 信息 集 概念 和 用 于 编程 目的 的 数据 集 ， 正 如 下 面 的 引 语 所 述 : 
如 果 根据 信息 集 S 交易 无 法 得 到 经 济 利益 ， 那 么 市 场 对 该 信息 集 来 说 就 是 有 效 的 。 
一 一 Michael Jensen (1978) 


下 面 , 我 们 可 以 使 用 Python 来 对 特定 案例 检验 RWH。 我 们 将 使 用 一 个 历史 市 场 价格 的 
金融 时 间 序列 ， 并 为 其 创建 一 些 (如 5 个 ) 滞后 版 本 。 然 后 ， 使 用 OLS 回归 ， 根 据 之 
前 创建 的 滞后 市 场 价格 预测 市 场 价格 。 基 本 思路 是 ， 昨 天 以 及 之 前 4 天 的 市 场 价格 可 
用 于 预测 今天 的 市 场 价格 。 

下 面 的 Python 代码 可 以 实现 上 述 思 路 ,创建 标 普 500 股票 指数 历史 日 终 收 盘 价 的 5 个 
湾 后 版 本 : 


In [26]: symbol = '.SPX' 


























































































































In [27]: data = pd.DataFrame (raw[symbol]) 





1 随机 游 走 及 基于 布朗 运动 过 程 的 正式 定义 及 更 详细 的 讨论 参见 Baxter 和 Rennie 的 著作 (1996 ) 一 一 原 注 
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In [28]: 


In [29]: 
Out [29]: 


In [30]: 


lags = 5 

cols = [] 

for lag in range(l, lags + 1): 
col = 'lag_{}'.format(lag) © 
data[col] = data[symbol].shift(lag) @ 
cols.append(col) ® 


data.head(7) 
¿SPX lag_1 lag_2 lag_3 lag_4 lag_5 








Date 

2010-01-01 NaN NaN NaN NaN NaN NaN 
2010-01-04 1132.99 NaN NaN NaN NaN NaN 
2010-01-05 1136.52 1132.99 NaN NaN NaN NaN 
2010-01-06 1137.14 1136.52 1132.99 NaN NaN NaN 
2010-01-07 1141.69 1137.14 1136.52 1132.99 NaN NaN 
2010-01-08 1144.98 1141.69 1137.14 1136.52 1132.99 NaN 
2010-01-11 1146.98 1144.98 1141.69 1137.14 1136.52 1132.99 
data.dropna (inplace=True) 





@ 为 当前 Lag 值 定义 列 名 。 
@ 按照 当前 Lag 值 创建 市 场 价格 的 滞后 版 本 。 
O 收集 后 续 参 考点 的 列 名 。 


使 用 NumPy 很 容易 实现 OLS 回归 。 正 如 最 优 回归 参数 所 示 ，1Lag_1 确实 对 基于 OLS 
回归 的 市 场 价 格 预测 非常 重要 。 它 的 值 接近 于 1。 其 他 4 个 值 接近 0。 图 15-4 可 视 化 了 
最 优 回归 参数 值 。 





1.0 














0.8 
0.6 
0.4 
0.2 
0.0 —— 
lag_1 lag_2 lag_3 lag_4 lag_5 
15-4 OLS 回归 价格 预测 的 最 优 回归 参数 
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15-5 使 用 最 优化 结果 可 视 化 预测 值 ， 将 其 与 原始 的 标 普 500 指数 值 对 比 。 从 图 15-5 
中 可 以 明显 看 出 , 预测 值 本 质 上 是 利用 lag_1 提出 的 。 图 15-5 中 的 预测 线 就 是 原始 时 
间 序 列 向 右 移动 一 天 的 结果 (有 一 些小 调整 )。 
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15-5 #2 500 指数 水 平 与 OLS 回归 预测 值 的 对 比 


总 而 言 之 ， 本 节 的 简短 分 析 揭 示 了 对 RWH 和 EMH 的 某 些 支持 。 当 然 ， 这 一 分 析 仅 
针对 一 种 股票 指数 。 该 分 析 还 使 用 相当 特殊 的 参数 一 一 但 很 容易 扩展 以 加 入 不 同类 型 
资产 的 多 种 金融 工具 、 不 同 的 沾 后 值 等 。 一 般 来 说 ， 从 定性 角度 看 ,结果 多 少 有 些 相 
似 。 毕 竟 ，RWH 和 EMH 是 得 到 广泛 实证 支持 的 金融 理论 。 从 这 个 意义 上 讲 ， 任 何 
算法 交易 策略 都 必须 证 明 RWH 不 普遍 适用 ， 才 能 证 明 自 身 的 价值 。 这 当然 是 一 个 巨 
大 的 障碍 。 

















15.3 线性 OLS 回归 


本 节 应 用 线性 OLS 回归 来 根据 历史 对 数 收 益 率 预测 市 场 运动 方向 。 简 单 起 见 ， 我 们 只 
使 用 两 个 特征 。 第 一 个 特征 ( 1ag_1 ) 表示 滞后 一 天 的 金融 时 间 序 列 对 数 收益 率 。 第 
二 个 特征 (1ag_2 ) 的 对 数 收益 率 为 滞后 两 天 的 。 与 价格 不 同 ， 对 数 收益 率 通常 是 固 
定 的 ， 这 常常 是 应 用 统计 学 和 ML 算法 的 必要 条 件 。 

使 用 澡 后 对 数 收益 率 作为 特征 的 基本 思路 是 ， 它 们 可 以 为 预测 未 来 收益 提供 信息 。 例 
如 ， 人 们 可 能 假设 两 次 向 下 运动 之 后 ， 更 有 可 能 出 现 一 次 向 上 运动 〈 平 均值 活动 ) 或 
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者 正 相反 ,更 有 可 能 出 现 又 一 次 向 下 运动 (“势头 ” 或 者 “趋势 ”)。 回 归 技 术 的 应 用 可 
以 规范 化 这 些 非 正式 推理 。 


15.3.1 


数据 





首先 导入 并 准备 数据 集 。 图 15-6 展示 了 欧元 /美元 汇率 每 日 历史 对 数 收 益 率 的 频率 分 
布 。 它 们 是 后 面 使 用 的 特征 及 标签 的 基础 : 

















250 

200 
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100 

50 

0 — 
-0.02 -0.01 0.00 0.01 0.02 0.03 
图 15-6 ”欧元 /美元 汇率 对 数 收益 率直 方 图 
In [3]: raw = pd.read_csv('../../source/tr_eikon_eod_data.csv', 
index_col=0, parse_dates=True) .dropna () 

In [4]: raw.columns 

Out [4]: Index(['AAPL.O', 'MSFT.O', 'INTC.O', 'AMZN.O', 'GS.N', 'SPY', '.SPX', 
'.VIX', 'EUR=', 'XAU=', 'GDX', 'GLD'], 
dtype='object'") 

In [5]: symbol = 'EUR=' 

In [6]: data = pd.DataFrame (raw[symbol] ) 

In [7]: data['returns'] = np.log(data / data.shift(l1)) 

In [8]: data.dropna (inplace=True) 
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In [9]: data['direction'] = np.sign(data['returns']) .astype (int) 


In [10]: data.head() 








Out [10]: EUR= returns direction 
Date 
2010-01-05 1.4368 -0.002988 -1 
2010-01-06 1.4412 0.003058 1 
2010-01-07 1.4318 -0.006544 -1 
2010-01-08 1.4412 0.006544 1 
2010-01-11 1.4513 0.006984 1 

In [11]: data['returns'].hist (bins=35, figsize=(10, 6)); 





FOUR FE XI BOC FR A HE REP TE, AES aR HS Sib ( 见 
15-7): 











In [12]: lags = 2 


In [13]: def create_lags (data): 
global cols 
cols = [] 
for lag in range(1, lags + 1): 
col = 'lag_{}'.format (lag) 
data[col] = data['returns'].shift (lag) 
cols.append (col) 


In [14]: create_lags (data) 


In [15]: data.head() 





Out [15]: EUR= returns direction lag_1 lag_2 
Date 
2010-01-05 1.4368 -0.002988 -1 NaN NaN 
2010-01-06 1.4412 0.003058 1 -0.002988 NaN 
2010-01-07 1.4318 -0.006544 -1 0.003058 -0.002988 
2010-01-08 1.4412 0.006544 1 -0.006544 0.003058 
2010-01-11 1.4513 0.006984 1 0.006544 -0.006544 

In [16]: data.dropna (inplace=True) 





In [17]: data.plot.scatter(x='lag_1', y='lag_2', c='returns', 
cmap='coolwarm', figsize=(10, 6), colorbar=True) 
plt.axvline(0, c='r', ls='--"') 


plt.axhline(0, c='r', ls='--'); 
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15-7 基于 特征 和 标签 数据 的 散 点 图 


15.3.2 ”回归 

数据 集 完成 后 ， 可 以 应 用 线性 OLS 回归 学 习 任 何 潜在 (线性 ) 关系 ， 然 后 根据 特征 预 
测 市 场 行情 ， 并 根据 预测 检验 交易 策略 。 有 两 种 基本 方法 用 于 预测 : 使 用 对 数 收益 率 
或 者 仅 用 方向 数据 作为 回归 因 变 量 。 无 论 如 何 ， 预 测 结 果 是 个 实 值 ， 可 将 其 变换 成 为 
+1 或 者 -1 以 仅 用 于 方向 的 预测 : 


In [18]: from sklearn.linear model import LinearRegression © 











In [19]: model = LinearRegression() © 


In [20]: data['pos_ols_1'] = model.fit (data[cols], 
data[l'returns']) .predict (data 
[cols]) @ 


In [21]: data['pos_ols_2'] = model.fit (data[cols], 
data['direction']) .predict (data 





[cols]) ® 
In [22]: data[['pos_ols_1', 'pos_ols_2']].head() 
Out [22]: pos_ols 1 pos ols 2 


Date 

2010-01-07 -0.000166 -0.000086 
2010-01-08 0.000017 0.040404 
2010-01-11 -0.000244 -0.011756 
2010-01-12 -0.000139 -0.043398 
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2010-01-13 -0.000022 0.002237 

In [23]: data[['pos_ols_1', 'pos_ols_2']] = np.where ( 
data[['pos_ols_1', 'pos_ols_2']] > 0, 
In [24]: data['pos_ols_1'].value_counts() © 
Out [24]: -1 1847 
1 288 

Name: pos_ols_1, dtype: int64 
In [25]: data['pos_ols_2'].value_counts() © 
Out[25]: 1 L377 

-1 758 

Name: pos ols 2, dtype: int64 
In [26]: (data['pos_ols_1'].diff() != 0).sum() © 
Out [26]: 555 
In [27]: (data['pos ols 2'].diff() != 0).sum() © 
Out [27]: 762 


O 使 用 来 自 scikit-leam 的 线性 OLS 回归 实现 。 

@ 直接 在 对 数 收益 率 上 实施 回归 。 

O 也 在 最 感 兴趣 的 方向 数据 上 进行 。 

O 市 值 预测 转换 为 方向 值 (+1，-1 )。 

@ 两 种 方法 通常 得 到 不 同 的 方向 预测 值 。 

@ 不 过 ， 两 种 方法 都 导致 一 段 时 间 里 相对 多 的 交易 。 














有 了 方向 预测 ， 我 们 就 可 以 应 用 向 量化 事后 检验 来 判断 所 得 交 








1, 


-1) 


易 策 略 的 绩效 。 在 这 一 


阶段 ,分 析 的 基础 是 一 些 简 化 的 假设 , 例如 “ 零 交 易 成 本 ”或 使 用 同一 数据 集 进行 训 


练 和 测试 。 不 过 ， 
根据 市 场 方向 训练 的 策略 整体 收益 为 正 数 ( 见 图 15-8 ): 








In [28]: data['strat_ols_1'] = data['pos_ols_1'] 
In [29]: data['strat_ols_2'] = datal[l'pos ols 2'] 
In [30]: data[['returns', 'strat_ols 1', 
Out [30]: returns 0.810644 

strat_ols 1 0.942422 

strat_ols 2 1.339286 

dtype: float64 


在 这 些 假设 下 ， 基 于 回归 的 策略 表现 都 好 于 基准 被 动 投资 ， 


但 只 有 


* data['returns'] 


* data['returns'] 


"strat_ols_2']].sum() .apply (np.exp) 











口 
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In [31]: (data['direction"] data['pos_ols_1']).value_counts() © 
Out [31]: False 1093 
True 1042 


dtype: int64 


ll 
ll 


In [32]: (data['direction'] == data['pos_ols_2']).value_counts() © 
Out [32]: True 1096 
False 1039 


dtype: int64 


In [33]: data[['returns', 'strat_ols 1', 'strat_ols 2']].cumsum( 
) .apply (np.exp) .plot (figsize=(10, 6)); 


O 显示 策略 的 正确 与 错误 预测 数 。 





—— returns 





1 strat_ols_1 
” — strat ols 2 
1.3 
1.2 
11 
1.0 
0.9 
0.8 
0.7 
r : 
RN ae oe” K? 9 oe? ae | X? 


Date 


15-8 ”欧元 /美元 和 基于 回归 的 策略 在 一 段 时 间 里 的 表现 








15.4 BA 

本 节 将 13.4 BAR k (RAS a) Pe «ASIF ee 
策略 的 聚 类 。 具 体 思路 是 ， 通 过 算法 确定 两 个 特征 值 聚 类 来 预测 向 上 或 向 下 运动 。 
以 下 代码 对 前 面 使 用 的 两 个 特征 应 用 大 均值 算法 。 图 15-9 是 这 两 个 聚 类 可 视 化 的 结果 : 


In [34]: from sklearn.cluster import KMeans 





























In [35]: model = KMeans(n clusters=2, random state=0) © 
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In [36]: model.fit (data[cols]) 
Out [36]: KMeans (algorithm="auto', copy_x=True, init='k-means++', max_iter=300, 








n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto', 
random _state=0, tol=0.0001, verbose=0) 


In [37]: data['pos_clus'] = model.predict (data[cols] ) 


In [38]: data['pos_clus'] = np.where(data['pos_clus'] == 1, -1, 1) @ 


In [39]: data['pos_clus'].values 
Out [39]: array (~L; Ly ly ssar dy, LT, =I] 











In [40]: plt.figure(figsize=(10, 6)) 








plt.scatter(data[cols].iloc[:, 0], data[cols].iloc[:, 1], 
c=data['pos_clus'], cmap='coolwarm') ; 


O 为 算法 选择 的 两 个 聚 类 。 
@ 根据 聚 类 值 选择 头 才 。 








0.04 


0.03 e 
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-0.02 





-0.03 


-0.04 





-0.03 -0.02 -0.01 0.00 0.01 0.02 0.03 0.04 
15-9 kk 均值 算法 识别 的 两 个 聚 类 
必须 承认 ， 这 种 方法 在 此 时 相当 武断 一 一 毕竟 ， 算 法 如 何 知道 人 们 的 期 望 ?y 但 是 ， 得 
到 的 交易 策略 最 终 略 胜 于 基准 被 动 投资 ( 见 图 15-10 )。 值 得 一 提 的 是 ， 我 们 没有 进行 
任何 指导 (监督 )， 命 中 率 〈 正 确 预测 次 数 与 所 有 预测 次 数 的 比值 ) 低 于 50%: 


In [41]: data['strat_clus'] = data['pos_clus'] * data['returns"] 














In [42]: data[['returns', 'strat_clus']].sum() .apply (np.exp) 
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Out [42]: returns 0.810644 
strat_clus Le 2733 
dtype: float64 


In [43]: (data['direction'] == data['pos_clus']).value_counts () 
Out [43]: True 1077 
False 1058 


dtype: int64 


In [44]: data[['returns', 'strat_clus']].cumsum( 


) .apply (np.exp) .plot (figsize=(10, 6)); 
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15.5 ”频率 方法 


除了 更 复杂 、 精 密 的 算法 和 技术 之 外 ， 人 们 还 可 能 提出 采用 频率 方法 以 预测 金融 市 场 
方向 变动 的 思路 。 为 此 ， 可 以 将 两 个 实 值 特征 变换 为 二 元 特征 。 再 根据 两 个 二 元 特征 
的 4 种 可 能 组 合 ((0, 0), (0, 1), (1, 0), (1, D )， 从 向 上 和 向 下 运动 的 历史 观测 数据 中 分 别 
预测 两 种 趋势 的 概率 。 

利用 pandas 的 数据 分 析 能 力 ， 这 样 的 方法 相对 容易 实现 : 


In [45]: def create bins(data, bins=[0]): 
global cols_bin 























cols bin = [] 





for col in cols: 
col bin = col + ' bin' 
data[col_bin] = np.digitize(data[col], bins=bins) © 
cols_bin.append(col_bin) 


In [46]: create bins (data) 


In [47]: data[cols bin + ['direction']].head() @ 


Out [47]: lag 1 bin lag 2 bin direction 
Date 
2010-01-07 1 0 一 
2010-01-08 0 1 
2010-01-11 1 0 
2010-01-12 1 1 = 
2010-01-13 0 1 


In [48]: grouped = data.groupby(cols_bin + ['direction"']) 
grouped.size() © 

Out [48]: lag 1 bin lag 2 bin direction 
0 0 一 ] 239 

0 4 





dtype: int64 
In [49]: res = grouped['direction'].size().unstack(fill_value=0) ©@ 


In [50]: def highlight_max(s): 
is max = s == s.max() 
return ['background-color: yellow' if v else '' for v 


in is max] ® 


In [51]: res.style.apply(highlight_max, axis=1) © 
Out [51]: <pandas.io.formats.style.Styler at 0x1al194216a0> 


O 按照 bins 参数 来 数字 化 特征 值 。 
@ 显示 数字 化 之 后 的 特征 值 和 标签 值 。 
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© 按照 特征 值 组 合 ， 显 示 可 能 的 运动 情况 的 频率 。 
O 转换 DataFrame 对 象 ， 在 各 列 中 填 人 频率 。 
O 高 亮 显 示 每 个 特征 值 组 合 的 最 高 频率 值 。 











根据 频率 数据 ,3 个 特征 值 组 合 表明 向 下 运动 , 另 一 个 似乎 更 可 能 表示 向 上 运动 。 将 此 


转换 成 一 个 交易 策略 ， 其 结果 如 图 15-11 所 示 : 


In [52]: data['pos_freq'] = np.where(data[cols bin] .sum(axis=1) == 2, - 
In [53]: (data['direction'] == data['pos_freq']).value_counts () 
Out [53]: True 1102 

False 1033 


dtype: int64 


In [54]: data['strat_freq'] = data['pos_freq'] * data['returns'] 


In [55]: data[['returns', 'strat_freq']].sum() .apply(np.exp) 


Out [55]: returns 0.810644 
strat_freq 0.989513 
dtype: float64 


In [56]: data[['returns', 'strat_freq']].cumsum( 


) .apply (np.exp) .plot (figsize=(10, 6)); 


@ 将 频率 上 的 发 现 转换 成 一 个 交易 策略 。 
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15.6 分 类 


本 节 将 ML 的 分 类 算法 (在 13.4 节 中 介绍 过 ) 应 用 到 预测 金融 市 场 价格 变动 方向 的 问 
题 上 。 按 照 前 一 节 的 背景 知识 和 示例 ， 人 逻辑 回归 、 高 斯 朴素 贝 叶 斯 和 支持 向 量 机 的 应 
用 与 在 较 小 样本 数据 集 上 的 应 用 一 样 简单 。 

15.6.1 两 个 二 元 特征 

首先 是 基于 二 元 特征 值 的 模型 拟 合 ， 得 出 结果 头寸 值 : 


In [57]: from sklearn import linear_model 


















































from sklearn.naive_bayes import GaussianNB 
from sklearn.svm import SVC 


In [58]: C=1 


In [59]: models = { 
"log_reg': linear_model.LogisticRegression (C=C), 
"gauss_nb': GaussianNB(), 
"svm': SVC (C=C) 


In [60]: def fit models(data): © 
mfit = {model: models[model].fit(data[cols bin], 
data['direction']) 


for model in models.keys() } 
In [61]: fit models (data) 


In [62]: def derive_positions(data): @ 
for model in models.keys(): 
data['"pos_' + model] = models [model] .predict (data[cols_bin]) 


In [63]: derive positions (data) 

@ 拟 合 所 有 模型 的 函数 。 

@ 从 拟 合 模型 中 得 出 所 有 头寸 值 的 函数 。 

其 次 ， 对 得 出 的 交易 策略 进行 向 量化 事后 检验 。 图 15-12 可 视 化 了 一 段 时 间 的 结 


In [64]: def evaluate strats(data): © 
global sel 
sel = [] 
for model in models.keys(): 





col = 'strat_' + model 
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data[col] = data['pos_' + model] * data['returns"] 
sel.append (col) 
sel.insert(0, 'returns') 
In [65]: evaluate strats (data) 


In [66]: sel.insert (1, 'strat_freq') 


In [67]: data[sel].sum().apply(np.exp) @ 


Out [67]: returns 0.810644 
strat_freq 0.989513 
strat_log_reg 1.243322 
strat_gauss_nb 1.243322 
strat_svm 0.989513 


dtype: float64 


In [68]: data[sel].cumsum() .apply (np.exp) .plot (figsize=(10, 6)); 
O 求 得 所 有 结果 交易 策略 的 函数 。 
@ 一 些 策略 可 能 有 完全 相同 的 表现 。 





— returns 
— strat_freq 

1.3 -一 Strat log reg 
—— strat gauss nb 
一 一 strat_svm 

1.2 


0.9 X Y Maat) 
0.8 
0.7 


a PO as” g? as” a” DÊ oo" a 
Date 


15-12 ”欧元 /美元 与 基于 分 类 的 交易 策略 ( 两 个 二 元 滞后 特征 ) 的 表现 


15.6.2 5 个 二 元 特征 
为 了 改善 策略 的 绩效 , 下面 的 代码 使 用 5 个 二 元 滞后 特征 来 代替 原来 的 两 个 特征 。 特 
别 是 ， 基 于 SVM 的 策略 表现 明显 提高 ( 见 图 15-13 )。 而 基于 LR 和 GNB 的 绩效 变 























In [69]: data = pd.DataFrame (raw[symbol]) 


In [70]: data['returns'] = np.log(data / data.shift (1) ) 


In [71]: data['direction'] = np.sign(data['returns']) 








In [72]: lags = 5 © 
create_lags (data) 
data.dropna (inplace=True) 


In [73]: create bins(data) © 

















cols bin 

Out[73]: ['lag 1 bin', ‘lag 2 bin', 'lag 3 bin', ‘lag 4 bin', 'lag 5 bin'] 

In [74]: data[cols_bin] .head() 

Out [74]: lag 1 bin lag 2 bin lag 3 bin lag 4 bin lag_5 bin 
Date 
2010-01-12 1 I 0 1 0 
2010-01-13 0 1 1 0 1 
2010-01-14 1 0 1 1 0 
2010-01-15 0 al 0 1 1 
2010-01-19 0 0 1 0 1 

In [75]: data.dropna (inplace=True) 

In [76]: fit models (data) 

In [77]: derive_positions (data) 

In [78]: evaluate strats (data) 

In [79]: data[sel].sum() .apply (np.exp) 

Out[79]: returns 0.805002 
strat_log_reg 0.971623 
strat_gauss_nb 0.986420 
strat_svm 1.452406 
dtype: float64 

In [80]: data[sel].cumsum() .apply (np.exp) .plot (figsize=(10, 6)); 

o 现在 ,使 用 5 个 滞后 的 对 数 收 益 率 序列 。 
@ 实 值 特征 变换 为 二 元 数据 。 
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15.6.3 5 个 数字 化 特征 
最 后 ， 以 下 代码 使 用 历史 对 数 收益 率 的 一 阶 矩 和 一 阶 矩 数字 化 特征 数据 ,可 以 得 到 更 多 可 能 
的 特征 值 组 合 。 这 改善 了 所 有 分 类 算法 的 绩效 , 但 SVM 的 改善 仍然 最 为 明显 ( 见 图 15-14 ): 


In [81]: mu = data['returns'].mean() © 
v = data['returns'].std() @ 





In [82]: bins = [mu - v, mu, mu + v] © 

bins © 
Out [82]: [-0.006033537040418665, —0.00010174015279231306, 0.005830056734834039] 
In [83]: create bins(data, bins) 


In [84]: data[cols_ bin] .head() 








Out [84]: lag 1 bin lag 2 bin lag_3_bin lag_4 bin lag 5 bin 
Date 
2010-01-12 3 3 0 2 1 
2010-01-13 ii 3 3 0 2 
2010-01-14 2 1 3 3 0 
2010-01-15 1 2 1 3 3 
2010-01-19 0 1 2 1 3 


In [85]: fit models (data) 


In [86]: derive_positions (data) 





482 第 15 章 交易 策略 


In [87]: 


In [88]: 
Out [88]: 


In [89]: 


evaluate strats (data) 


data[sel].sum() .apply (np.exp) 


returns 0.805002 
strat_log_reg 1.431120 
strat_gauss_nb 1.815304 
strat_svm 5.653433 


dtype: float64 


data[sel].cumsum().apply(np.exp) .plot (figsize=(10, 6)); 


@ 使 用 平均 对 数 收益 率 。 


@ 标准 差 。 


© 数字 化 特征 数据 。 





a 





returns 
strat_log reg 


strat_gauss_nb 


strat_svm 





o® 


a as a” a” os? w a" v 


Date 








E 15-14 ”欧元 /美元 与 基于 分 类 的 交易 策略 ( 5 个 数字 化 滞后 特征 ) 的 表现 








特征 类 型 

本 章 只 使 用 滞后 收益 率 数据 作为 特征 数据 , 主要 形式 是 二 元 特征 或 者 数字 
化 特征 .这 主要 是 为 了 方便 , 因为 此 类 特征 数据 可 以 从 金融 时 间 序 列 获得 。 
但 是 ， 在 实际 应 用 中 ,特征 数据 可 以 来 自 多 种 多 样 的 数据 源 ， 可 能 包含 其 
他 人 金融 时 间 序 列 和 由 此 得 出 的 统计 量 、 宏 观 经 济 数据 、 公 司 金 融 指标 或 者 
新 闻 报道 。 对 这 一 主题 的 深入 讨论 参见 L6pez de Prado 的 著作 (2018 )。 
也 有 一 些 用 于 自动 化 时 间 序 列 特征 提取 的 Python 库 ， 如 tsfresh。 
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15.6.4 顺序 训练 -测试 分 离 
为 了 更 好 地 评判 分 类 算法 的 绩效 ， 接 下 来 用 下 面 的 代码 实现 顺序 训练 -测试 分 离 。 这 里 
的 思路 是 模拟 只 有 某 一 时 间 点 前 的 数据 可 用 于 训练 ML 算法 的 情况 。 在 实时 交易 期 间 ， 
算法 面 对 的 是 前 所 未 见 的 数据 ， 那 正 是 算法 证 明 其 价值 的 场合 。 在 这 种 特例 中 ， 所 有 
分 类 算法 的 绩效 都 优 于 ( 维持 之 前 的 简化 假设 ) 被 动 的 基准 投资 ， 但 只 有 GNB 和 LR 
算法 实现 了 绝对 正 收 益 ( 见 图 15-15 ): 
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图 15-15 ”欧元 /美元 与 基于 分 类 的 交易 策略 ( 顺序 训练 -测试 分 离 ) 的 表现 
In [90]: split = int(len(data) * 0.5) 
In [91]: train = data.iloc[:split].copy() © 
In [92]: fit models(train) © 
In [93]: test = data.iloc[split:].copy() @ 
In [94]: derive positions (test) @ 


In [95]: evaluate strats(test) @ 





In [96]: test[sel].sum() .apply (np.exp) 








Out [96]: returns 0.850291 
strat_log_reg 0.962989 
strat_gauss_nb 0.941172 
strat svm 1.048966 





484 第 15 章 交易 策略 


dtype: float64 


In [97]: test[sel].cumsum() .apply (np.exp) .plot (figsize=(10, 6)); 
@ 在 训练 数据 上 训练 所 有 分 类 算法 。 
@ 在 测试 数据 上 测试 所 有 分 类 算法 。 


15.6.5 ”随机 训练 -测试 分 离 

在 二 元 或 者 数字 化 特征 数据 上 训练 和 测试 分 类 算法 ， 思 路 是 使 用 特征 值 模式 预测 未 来 
市 场 变动 ， 可 以 有 高 于 50% 的 准确 率 。 也 就 是 说 ， 这 种 方法 假定 模式 的 预测 能 力 在 一 段 
时 间 内 保持 不 变 。 从 这 个 意义 上 说 ， 不管 使 用 哪 一 部 分 数据 训练 算法 、 哪 一 部 分 测试 算 
法 ， 都 不 应 该 造成 ( 太 大 ) 差异 ， 这 意味 着 我 们 可 以 打破 训练 和 测试 数据 的 时 间 顺 序 。 
典型 的 方法 之 一 就 是 随机 训练 -测试 分 离 ， 以 样本 外 数据 测试 分 类 算法 表现 ， 同 时 试图 
模拟 现实 状况 ， 交 易 期 间 算 法 将 面 对 连 续 流 入 的 新 数据 。 我 们 采用 的 方法 与 13.4.2 节 中 
的 相同 。 根 据 这 种 方法 ，SVM 算法 再 次 得 到 最 佳 的 样本 外 表现 ( 见 图 15-16 ): 


In [98]: from sklearn.model_selection import train test split 























In [99]: train, test = train_test_split (data, test_size=0.5, 
shuffle=True, random _state=100) 


In [100]: train = train.copy().sort_index() © 








In [101]: train[cols bin] .head() 

Out [101]: lag 1 bin lag 2 bin lag 3 bin lag_4 bin lag_5 bin 
Date 
2010-01-12 3 3 0 2 1 
2010-01-13 1 3 3 0 2 
2010-01-14 2 1 3 3 0 
2010-01-15 1 2 1 3 3 
2010-01-20 1 0 1 2 1 


In [102]: test = test.copy().sort_index() © 
In [103]: fit models (train) 

In [104]: derive_positions (test) 

In [105]: evaluate strats (test) 

In [106]: test[sel] .sum() .apply (np.exp) 


Out [106]: returns 0.878078 
strat_log_reg 0.735893 
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strat_gauss_nb 0.765009 
strat svm 0.695428 
dtype: float64 


In [107]: test[sel].cumsum() .apply (np.exp) .plot (figsize=(10, 6)); 


@ 复制 训练 和 测试 数据 集 并 恢复 时 间 顺 序 。 
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15.7 深度 神经 网 络 


深度 神经 网 络 (DNN ) 试图 模拟 人 类 大 脑 的 运作 。 它 们 通常 由 输入 层 ( 特征 )、 输 出 层 
(标签 ) 和 多 个 隐藏 层 组 成 。 隐 藏 层 的 存在 使 神经 网 络 变 得 更 “ 深 ”， 能 学 习 更 复杂 的 
关系 、 在 许多 类 问题 上 表现 更 好 。 应 用 DNN 时 ， 人 们 通常 用 “深度 学 习 ” 人 代替“ 机 器 
学 习 ”。 这 一 领域 的 介绍 可 参见 Geron (2017 ) 或 者 Gibson 和 Patterson (2017 ) 的 著作 。 


15.7.1 用 scikit-learn 实现 DNN 

本 节 应 用 scikit-learn 中 的 MLPClassifier 算法 (13.4.2 节 中 曾 介绍 过 )。 首 先 ， 它 使 用 
数字 化 特征 在 整个 数据 集 上 训练 和 测试 。 这 个 算法 实现 了 极其 出 色 的 样本 内 表现 ( 见 
图 15-17), 说 明了 DNN 在 此 类 问题 上 的 能 力 。 但 是, 它 也 表现 出 了 明显 的 过 度 拟 合 现 
象 ， 因 为 表现 之 好 确实 有 些 不 真实 : 


In [108]: from sklearn.neural_network import MLPClassifier 
































In [109]: model = MLPClassifier(solver='lbfgs', alpha=le-5, 











hidden_layer_sizes=2 * [250], 


random _state=1) 








In [110]: %time model.fit(data[cols bin], data['direction"]) 
CPU times: user 16.1 s, sys: 156 ms, total: 16.2 s 
Wall time: 9.85 s 
Out [110]: MLPClassifier(activation='relu', alpha=le-05, batch size='auto', 
beta_1=0.9, 
beta_2=0.999, early _stopping=False, epsilon=le-08, 
hidden_layer_sizes=[250, 250], learning_rate='constant', 
learning_rate_init=0.001, max_iter=200, momentum=0.9, 
n_iter_no_change=10, nesterovs_momentum=True, power t=0.5, 
random state=1, shuffle=True, solver='lbfgs', tol=0.0001, 
validation fraction=0.1, verbose=False, warm _start=False) 
In [111]: data['pos_dnn_sk'] = model.predict (data[cols_bin]) 
In [112]: data['strat_dnn_sk'] = data['pos_dnn_sk'] * data['returns"] 
In [113]: data[['returns', 'strat_dnn_sk']].sum().apply (np.exp) 
Out[113]: returns 0.805002 
strat dnn sk 35.156677 
dtype: float64 
In [114]: data[['returns', 'strat_dnn_sk']].cumsum() .apply ( 
np.exp) .plot (figsize=(10, 6)); 
35 — returns 
—— strat_dnn_sk 
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为 了 避免 DNN 模型 的 过 度 拟 合 ， 接 下 来 我 们 应 用 随机 训练 -测试 分 离 。 算 法 再 一 次 胜 
过 了 被 动 基准 投资 ， 得 到 了 绝对 正 效益 ( 见 图 15-18). 但 是 ,结果 现在 似乎 较为 现实 : 














1.3 


—— returns 
—— strat dnn sk 
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0.9 
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Date 
图 15-18 ”欧元 /美元 与 基于 DNN 的 交易 策略 ( scikit-learn， 随 机 训练 -测试 分 离 ) 的 表现 
In 15 train, test = train_test_split (data, test_size=0.5, 
random _state=100) 

In 16]: train = train.copy().sort_index () 

In 17 test = test.copy().sort_index () 

In 18 model = MLPClassifier(solver='lbfgs', alpha=le-5, max_iter=500, 

















state=1) © 


In [119]: 


Out [119]: 


hidden_layer_sizes=3 * [500], random_ 


Stime model.fit(train[cols bin], train['direction"']) 
CPU times: user 2min 26s, sys: 1.02 s, total: 2min 27s 
Wall time: lmin 31s 


MLPClassifier (activation='relu', alpha=le-05, batch_size="auto', 
beta_1=0.9, 

beta_2=0.999, early _stopping=False, epsilon=le-08, 
hidden_layer_sizes=[500, 500, 500], learning_rate='constant', 
learning_rate_init=0.001, max_iter=500, momentum=0.9, 

n iter no change=10, nesterovs_momentum=True, power _t=0.5, 
random state=1, shuffle=True, solver='lbfgs', tol=0.0001, 
validation fraction=0.1, verbose=False, warm start=False) 





488 





In [120]: test['pos_dnn_sk'] = model.predict (test [cols_bin]) 


In [121]: test['strat_dnn_sk'] = test['pos_dnn_sk'] * test['returns'] 
In [122]: test[['returns', 'strat_dnn_sk']].sum().apply (np.exp) 
Out [122]: returns 0.878078 


strat dnn sk 1.242042 
dtype: float64 


In [123]: test[['returns', 'strat_dnn_sk']].cumsum( 
) .apply (np.exp) .plot (figsize=(10, 


© 增 大 隐藏 层 和 隐藏 单元 数量 。 


15.7.2 用 TensorFlow 实现 DNN 























6)); 


TensorFlow 已 经 成 为 流行 的 深度 学 习 程 序 库 ， 它 由 Google 公司 开发 并 提供 支持 ， 应 用 











于 多 种 多 样 的 机 器 学 习 问 题 。Zedah 和 Ramsundar (2018 ) 的 著作 深入 介绍 了 深度 学 习 
中 的 TensorFlow。 与 scikit-learn 相同 ， 利 用 13.4.2 节 的 背景 知识 ， 应 用 TensorFlow 的 
DNNClassifier 算法 得 出 算法 交易 策略 十 分 简单 。 在 样本 内 ， 该 算法 的 效果 好 于 被 动 基 
准 投 资 ， 表现 出 可 观 的 绝对 收益 ( 见 图 15-19 )， 这 同样 说 明 存在 过 度 拟 合 : 








In [124]: import tensorflow as tf 





tf.logging.set verbosity (tf.logging.ERROR) 





In [125]: fe = [tf.contrib.layers.real valued column ('lags', dimension=lags) ] 


In [126]: model = tf.contrib.learn.DNNClassifier (hidden units=3 * [500], 
n_classes=len(bins) + 1, 


feature columns=fc) 


In [127]: def input_fn(): 


fc = {'lags': tf.constant (data[cols_bin].values) } 


la = tf.constant (data['direction'] .apply ( 


lambda x: 0 if x < 0 else 1).values, 


shape=[data['direction'].size, 1]) 


return fc, la 


In [128]: %time model.fit (input fn=input fn, steps=250) © 
CPU times: user 2min 7s, sys: 8.85 s, total: 2min 16s 


Wall time: 49 s 


Out [128]: DNNClassifier (params={'head': 


<tensorflow.contrib.learn.python.learn.estimators.head._MultiClassHead 
500, 500], 
"feature_columns': (_RealValuedColumn (column name='lags', dimension=5, 


object at Oxlal9acf898>, 'hidden_units': [500, 





ch 
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default_value=None, dtype=tf.float32, normalizer=None),), ‘optimizer': 
None, ‘activation_fn': <function relu at 0x1161441le0>, 'dropout': 
None, 'gradient_clip_norm': None, 'embedding_lr multipliers': None, 
'input layer min slice size': None}) 





In [129]: model.evaluate (input fn=input fn, steps=1) @ 
Out [129]: {'loss': 0.6879357, 'accuracy': 0.5379925, 'global_step': 250} 


In [130]: pred = np.array (list (model.predict (input_fn=input_fn))) @ 
pred[:10] @ 
Out[130]: array([0, 0, 0, 0, O, 1, O, 1, 1, 0]) 


In [131]: data['pos dnn tf'] = np.where(pred > 0, 1, -1) © 


In [132]: data['strat_dnn_tf'] = data['pos_dnn tf'] * data['returns'"] 





In [133]: data[['returns', 'strat_dnn_tf']].sum().apply (np.exp) 
Out [133]: returns 0.805002 

strat_dnn tf 2.437222 

dtype: float64 











In [134]: data[['returns', 'strat_dnn tf']].cumsum( 


) .apply (np.exp) .plot (figsize=(10, 6)); 
© 训练 所 需 时 间 可 能 很 可 观 。 

@ 二 元 预测 (0,1 )。 

O 必须 转换 成 市 场 头寸 (-1，+1 )。 
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下 面 的 代码 再 次 实施 随机 训练 -测试 分 离 ， 得 到 基于 DDN 算法 交易 策略 的 更 为 真实 
的 表现 情况 。 正 如 预期 ， 样 本 外 的 表现 较 差 ( 见 图 15-20 )。 此 外 ， 在 特定 参数 下 ， 
TensorFlow 的 DNNClassifier 的 表现 比 scikit-learn MLPClassifier 算法 的 低 几 个 百 


分 点 : 
in plss]? 
In [136]: 
In [137]: 
Out: [13.7% 
In [138 
In [139 
Out [139 
In 40 
In 41 
In 42 
In 1 4 
Out [14 
In 











[144]: 





model = tf.contrib.learn.DNNClassifier (hidden_units=3 * [500], 
n_classes=len(bins) + 1, 


feature columns=fc) 


data = train 


Stime model.fit (input_fn=input_fn, steps=2500) 
CPU times: user llmin 7s, sys: lmin 7s, total: 12min 15s 
Wall time: 4min 27s 


DNNClassifier (params={'head': 
<tensorflow.contrib.learn.python.learn.estimators.head._MultiClassHead 
object at 0x116828cc0>, 'hidden_units': [500, 500, 500], 
"feature columns' : (_RealValuedColumn (column name='lags', dimension=5, 
default_value=None, dtype=tf.float32, normalizer=None),), ‘optimizer’: 
None, ‘activation_fn': <function relu at 0x1161441le0>, 'dropout'!: 
None, 'gradient_clip_norm': None, 'embedding_lr_multipliers': None, 


'input layer min slice size': None}) 





data = test 
model.evaluate (input fn=input fn, steps=1) 
{'loss': 0.82882184, 'accuracy': 0.48968107, 'global step': 2500} 


pred = np.array (list (model.predict (input_fn=input_fn) ) ) 
test['pos_dnn_tf'] = np.where(pred > 0, 1, -1) 
test['strat_dnn_tf'] = test['pos_dnn tf'] * test['returns'] 
test[['returns', 'strat_dnn_sk', 'strat_dnn tf']].sum() .apply (np.exp) 
returns 0.878078 

strat_dnn_sk 1.242042 

strat_dnn tf 1.063968 


dtype: float64 


test[['returns', 'strat_dnn_sk', 'strat_dnn tf']].cumsum( 


) .apply (np.exp) .plot (figsize=(10, 6)); 
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表现 结果 

SAIL, 向 量化 事后 检验 展现 的 不 同 算法 交易 策略 的 表现 都 仅 用 于 
说 明 目 的 。 除 了 没有 交易 成 本 的 简化 假设 之 外 ， 结 果 还 取决 于 许多 其 
他 (大 部 分 是 随意 选择 的 ) 参数 。 还 有 一 个 决定 因素 是 我 们 自始至终 
都 使 用 相对 小 的 欧元 /美元 汇率 日 终 价格 数 据 集 。 本 节 的 重点 是 阐述 
不 同方 法 和 ML 算法 在 金融 数据 上 的 应 用 , 而 不 是 得 出 用 于 实际 部 署 
的 可 靠 算法 交易 策略 。 第 16 章 将 讨论 此 类 问题 。 





15.8 结语 
本 章 介绍 了 算法 交易 策略 ， 并 根据 向 量化 事后 检验 评判 其 表现 。 我 们 首先 从 基于 两 条 








简单 移动 平均 线 的 简单 算法 交易 策略 人 手 ， 这 是 一 种 广为人知 、 在 实践 中 应 用 数 十 年 
的 策略 。 我 们 将 这 种 算法 用 于 阐述 向 量化 事后 检验 ， 并 大 量 使 用 了 NumPy 和 pandas 
的 向 量化 数据 分 析 能 力 。 本 章 还 使 用 了 OLS 回归 ， 以 实时 金融 时 间 序 列 为 基础 介绍 了 








随机 游 走 假设 。 这 是 任何 算法 交易 策略 证 明 其 价值 时 必 备 的 基准 。 
本 章 的 核心 是 13.4 节 中 介绍 的 机 器 学 习 算 法 的 应 用 。 许 多 算法 〈 大 部 分 








属于 分 类 算 


法 ) 的 应 用 都 基于 基本 相同 的 “节奏 "。 我 们 以 滞后 对 数 收益 率 数 据 的 各 种 变形 为 特 
征 一 一 但 这 当然 不 是 必然 的 约束 ， 主 要 是 为 了 方便 和 简单 。 此 外 ,分 析 基 于 许多 简化 
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假设 ， 因 为 本 章 的 重点 主要 是 机 器 学 习 算 法 应 用 的 技术 特征 ， 这 些 机 器 学 习 算法 被 应 
用 到 金融 时 间 序列 数据 ， 以 预测 金融 市 场 变动 的 方向 。 
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人 们 担心 计算 机 将 变 得 太 过 聪明 并 接管 这 个 世界 ， 但 真正 的 问题 是 它们 太 春 ， 而 
且 已 经 接管 了 世界 。 


BAF + 多 明 况 其 





人 们 可 能 会 想 :“ 现 在 该 怎么 办 ? ”交易 平台 已 经 存在 ， 人 们 可 以 读 取 历史 数据 和 流 数 
据 ， 下 买卖 单 和 检查 账户 状态 。 我 们 也 已 经 介绍 了 通过 预测 市 场 价格 变动 方向 来 得 出 
算法 交易 策略 的 不 同方 法 。 能 不 能 把 这 些 技术 组 合 起 来 ， 以 自动 化 的 方式 工作 ? 这 个 
问题 不 能 笼统 地 回答 。 但 是 ， 本 章 将 介绍 一 些 在 此 背景 下 十 分 重要 的 主题 。 我 们 假定 
只 部 署 一 个 自动 化 算法 交易 策略 ， 这 将 简化 资本 和 风险 管理 等 方面 的 问题 。 




















本 章 介绍 如 下 内 容 。 
KAGE 





正如 本 节 所 述 ， 依 赖 于 策略 特性 及 可 用 交易 资本 ， 凯 利 标 准 有 助 于 控制 交易 规模 。 
AF ML KZK 

为 了 获得 对 算法 交易 策略 的 信心 ， 必 须 对 其 效果 和 风险 特性 进行 全 面 的 事后 检验 。 

我 们 使 用 的 策略 示例 基于 第 15 章 中 介绍 的 一 种 机 器 学 习 分 类 算法 。 
RHR 

为 了 部 署 自动 化 交易 的 算法 交易 策略 ， 必 须 将 其 翻译 成 处 理 实时 流入 数据 的 在 线 算 法 。 
AMES KF 


HTE, MY I TA AE em, IA HE. PERE MIRAE AEA, z 
端 部 署 都 是 非常 可 取 的 选择 。 
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日 志 在 自动 化 交易 策略 部 署 期 间 的 历史 与 某 些 事件 的 分 析 上 起 到 了 重要 作用 ; 通 
过 套 接 字 通 信 进 行 监控 ， 可 以 实时 (远程 ) 观察 事件 。 








|i 








16.1 资本 管理 


算法 交易 的 核心 问题 之 一 是 ， 在 给 定 的 总 可 用 资本 中 ， 要 分 配 多 少 资本 给 指定 的 算法 交 
易 策 略 。 这 个 问题 的 答案 取决 于 交易 者 试图 通过 算法 交易 实现 的 主要 目标 。 大 部 分 个 人 
和 金融 机 构 都 认为 ， 长 期 财富 最 大 化 是 好 的 候选 目标 之 一 。 这 也 是 Edward Thorpe 在 导 
出 投资 的 “凯利 标准 ”时 所 想 的 。Rotando 和 Thorp 的 论文 (1992 ) 介绍 过 这 个 算法 。 


16.1.1 二 项 设 定 中 的 凯利 标准 

介绍 凯利 标准 投资 理论 的 常见 方法 是 以 掷 硬币 游戏 为 基础 ， 或 者 更 普遍 的 说 法 一 一 二 
项 设 定 ( 只 有 两 种 可 能 结果 )。 本 市 也 遵循 这 一 路 径 。 假 定 一 位 赌 徒 与 具有 无 限 财富 的 
银行 或 者 赌场 玩 掷 硬币 游戏 。 再 假设 硬币 为 正面 的 概率 为 P(0.35<P< 1), 背面 的 概率 
为 9=1-P < 0.5。 这 位 赌 徒 可 以 下 注 5b (大 于 0 的 任何 数 )， 如 有 果 押 注 正确 则 启 得 相同 
的 金额 ,如果 错误 则 输 挥 全 部 。 因 此 ， 在 单 次 设 定 下 ， 这 一 赌局 B 表示 该 游戏 的 随机 
变量 ) 的 预期 价值 为 : 





























E[B]=p:b- 4:2=D-g 2>0 
风险 中 立 且 具 有 无 限 资金 的 赌 徒 将 会 下 尽 可 能 大 的 赌注 ， 这 样 可 以 最 大 化 预期 回报 。 
然而 ,金融 市 场 上 的 交易 通常 不 是 一 次 性 博 穿 ， 而 是 重复 进行 的 。 因 此 ,假定 b, 代 表 
第 i 天 下 的 赌注 , co 代表 原始 资本 。 根据 当天 下 注 的 结果 , 第 一 天 结束 时 的 资本 c 可 能 
是 coth RÆ cobi REES n 次 的 赌局 预期 价值 为 : 






































E[B"]=c, + (p-q4)-b, 
i=l 











在 经 典 经 济 理论 中 ， 风 险 中 立 、 预 期 效用 最 大 化 的 条 件 下 ， 赌 徒 将 会 努力 最 大 化 上 述 
表达 式 的 值 。 很 容易 看 出 ， 和 一 次 性 投注 的 情况 类 似 , 投入 所 有 可 用 资金 ( 即 户 = cm1 ) 
可 以 达到 目的 。 然 而 ， 这 也 意味 着 一 次 损失 所 有 可 用 资金 将 归 零 ， 导 致 破产 〈 除非 可 
以 无 限 借贷 ) 因此 ， 这 种 策略 不 能 得 到 长 期 财富 的 最 大 化 。 

投入 最 大 可 用 资本 可 能 导致 突然 破产 ， 完 全 不 下 注 则 能 避免 任何 类 型 的 损失 ， 但 却 不 
能 从 有 利 的 赌局 中 得 益 。 这 就 是 凯利 标准 的 用 武之 地 ， 它 可 以 得 出 每 轮 赌局 中 可 用 资 
本 的 最 优 比例 J*。 假 定 n=h+t,， 瑚 代表 半 轮 赌局 中 硬币 正面 向 上 的 次 数 ， 而 上 代表 青 
面向 上 的 次 数 。 按 照 这 些 定义 ,，n 轮 后 的 可 用 资本 为 : 


o=o (+ f)' -d- fy’ 
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在 这 种 背景 下 ， 长 期 财富 最 大 化 可 以 归结 为 最 大 化 每 次 下 注 的 平均 几何 增长 率 , 公式 如 下 : 


l/n 
r= oo] 
Co 


-pe A se] 





Co 


= logl(+ f- a- fy" 


= toga + f)+ ioga- f) 
n 


n 














此 时 ， 问 题 的 形式 变 成 通过 选择 最 优 的 f， 来 最 大 化 预期 平均 增长 率 。 由 E[h] =n-p 和 
El =n.qg， 可 以 得 出 : 


Elr:]= r| Hogs f+ ioe- 
n n 
= Ej plog + f)+q logd— f)] 
= p log(l+ f)+q log- f) 
=G(f) 
现在 , 可 以 根据 一 阶 条 件 选 择 最 优 比例 f* 来 最 大 化 这 一 项 。 一 阶 导 数 由 以 下 公式 算出 : 
让 
Te Aeg 
_P-pf-4-4f 
a+ fd- f) 
__P-4-f 
a+ fod-f) 
从 一 阶 条 件 可 以 得 出 : 
Gf) =0= f*= p-q 
如 果 相信 这 就 是 最 大 值 ( 而 不 是 最 小 值 )， 这 一 结果 意味 着 ， 每 轮 最 优 的 投入 比例 是 
f*=p-q lM, WE p=0.55, IW f* =0.55-0.45 = 0.1， 表 示 最 优 投资 比例 为 10%。 
下 面 的 Python 代码 通过 模拟 将 这 些 概 念 与 结果 形式 化 : 
首先 是 导入 和 配置 : 


In [1]: import math 























import time 

import numpy as np 
import pandas as pd 
import datetime as dt 
import cufflinks as cf 
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from pylab import plt 
In [2]: np.random.seed (1000) 
plt.style.use('seaborn") 
smatplotlib inline 


FEM EER ERIE KAMEN (HEN 50 个 序列 ， 每 个 序列 100 WR), Python 代码 
很 简单 : 

















In [3]: p = 0.55 © 
In [4]: f=p- (1-p) @ 
In [5]: f @ 


Out [5]: 0.10000000000000009 


In [6]: I = 50 ® 











In [7]: n = 100 ® 

O 设置 正面 向 上 的 固定 概率 。 
@ 根据 凯利 标准 计算 最 优 比例 。 
© 模拟 的 序列 数量 。 

@ 每 次 序列 的 试验 次 数 。 


重要 的 部 分 是 Python px *un_simulation() ， 它 根据 之 前 的 假设 实现 模拟 。 图 16-1 
展示 了 模拟 结果 : 


In [8]: def run_simulation(f): 























© 


c = np.zeros((n, I 
c[0] = 100 @ 
for iin range(I): ® 
for t in range(1, n): @ 
o = np.random.binomial(1l, p) © 
if o> 0: © 





c[t, i] = (1 + f) * c[t - 1, i] © 
else: © 
c[t, i] = (1 - f) * c[t - 1, i] © 
return c 
In [9]: c1 = run simulation(f) 四 
In [10]: c_1.round(2) 
Out[10]: array([[100. , 100. , 100. , ..., 100. , 100. , 100. Ty 
L905, ge Abe sb BOs eS Bey LALO gg 90%: y LO. Ty 
| (9s: -'¢ Leben y. Boe eo bey ah yy S13: ZL Ty 


or 
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(226.35, 338.13, 413.27, ..., 123.97, 123.97, 123.97], 
[248.99, 371.94, 454.6, ..., 136.37, 136.37, 136.37], 
(273.89, 409.14, 409.14, ..., 122.73, 150.01, 122.73]]) 


In [11]: plt.figure(figsize=(10, 6)) 
plt.plot(c 1, 'b', lw=0.5) @ 
plt.plot(c_1.mean(axis=1), 'r', lw=2.5); @ 


o 实例 化 一 个 ndarray 对 象 ， 以 保存 模拟 结果 

@ 将 起 始 资本 设置 为 100。 

O 序列 模拟 的 外 循环 。 

@ 序列 模拟 的 内 循环 。 

O 模拟 掷 硬币 。 

@ 如 果 为 1( 即 正面 向 上 )。 

@ 将 赢 取 的 赌 金 加 入 资本 中 。 

@ 如 果 为 0( 即 背面 向 上 )。 

© 从 资本 中 减 去 损失 。 

@ 运行 模拟 。 
绘制 50 个 序列 的 图 表 。 
绘制 全 部 50 个 序列 的 平均 值 。 
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16-1 50 个 模拟 序列 ， 每 个 序列 100 次 试验 ( 红线 为 平均 线 ) 














下 面 的 代码 用 于 对 不 同 的 f 值 重复 模拟 。 如 图 16-2 所 示 ， 较 低 的 比例 导致 较 低 的 平均 
增长 率 。 较 高 的 f 值 可 能 导致 模拟 结束 时 较 高 的 平均 资本 (f= 0.25 ) 或 者 低 得 多 的 平均 
资本 (f= 0.5 )。 在 这 两 种 情况 下 ，f 较 高 时 波动 率 明显 增加 。 





In [12]: c 2 = run simulation(0.05) © 
In [13]: c 3 = run simulation(0.25) @ 
In [14]: c 4 = run simulation(0.5) © 
In [15]: plt.figure(figsize=(10, 6)) 














plt.plot (c_1.mean (axis=1) 'r', label='$f**=0.1$"') 


也 
plt.plot (c_2.mean(axis=1), 'b', label='S$f=0.05$') 
, ‘y', label='Sf=0.25S"') 
了 


( ) 
plt.plot (c_3.mean (axis=1) 
( ), 'm', label='$f=0.5$"') 


plt.plot (c_4.mean (axis=1 
plt.legend(loc=0) ; 


O 模拟 f= 0.05 的 情况 。 
@ 模拟 f= 0.25 的 情况 。 
© 模拟 f= 0.5 的 情况 。 
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16-2 ”不同 投资 比例 下 一 段 时间 的 平均 资本 


16.1.2 ”用 于 股票 及 指数 的 凯利 标准 
假定 现在 有 一 个 股票 市 场 ， 在 今日 价值 已 知 的 情况 下 ， 相 关 股 票 (指数 ) 在 一 年 期 限 
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之 后 只 能 取得 两 种 价值 。 同 样 是 二 项 设 定 , 但 这 一 次 更 接近 股票 市 场 真 实情 况 的 模型 。 
具体 的 假设 如 下 : 














1 
P(r = u+0)=P(r° =u a 

















WEP] = u > 0 是 该 股票 一 年 内 的 预期 收益 率 ，e > 0 是 收益 率 标准 差 ( 波动 率 )。 在 
单 期 设 定 中 ， 我 们 可 以 得 出 一 年 以 后 的 可 用 资本 (oc6 与 的 定义 同 前 ): 
A= le dafyertfr] 


NP, 是 资金 不 投资 于 股票 时 得 到 的 固定 短期 利率 。 最 大 化 几何 增长 率 意 味 着 最 大 化 
pea 








G(f)= slios“ ae: al 


Co 


现在 假定 一 年 中 有 个 相关 交易 日 ， 对 于 每 个 交易 日 : 


Ss _ U oO = S H oO = 1 
rs A efr n z) 2 
注意 ， 波 动 率 与 交易 日 数 的 平方 根 成 正比 。 在 这 种 假设 下 ， 每 日 价值 加 总 即 可 得 到 全 
年 收益 : 





=e TL Gd 站 
R n 




















现在 ， 我 们 必须 最 大 化 如 下 数量 ， 才 能 在 投资 股票 时 实现 长 期 财富 最 大 化 : 
G,(f)= Biog“ 
ba 
i=l n 
_ly typ (Hy 2 
-这 oa PEF 区 | 


hy a 

roelir0 f) aoe [4 z) 

-te (15a piar A) ce] 
2 n n 


n 


eD 


Co 














1 这 一 论述 遵循 Hung 的 著作 ( 2010 )。 一 一 原 注 
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使 用 泰勒 级 数 展开 ， 最终 可 以 得 到 : 
GN= rey f-Z fol +e] 
或 者 将 其 用 于 无 限 个 交易 时 间 点 一 一 即 连续 交易 : 


GO 




















最 优 投资 比例 产 通 过 一 阶 条 件 给 出 ， 如 以 下 的 表达 式 : 








也 就 是 用 股票 对 无 风险 利率 的 超额 收益 除 以 收益 率 方差 。 这 一 表达 式 看 起 来 与 夏普 指 
数 类 似 ( 见 13.1 节 ), 但 不 一 样 。 
我 们 将 用 一 个 实例 来 说 明 这 些 公司 的 应 用 ， 以 及 它们 在 为 交易 策略 配置 权益 类 资产 时 
的 作用 。 例 子 中 考虑 的 交易 策略 是 简单 地 被 动 持 有 标 普 500 指数 看 多 头寸 。 为 此 ， 我 
们 可 以 很 快 地 读 取 基础 数据 ， 并 很 容易 得 出 所 需 的 统计 量 : 


In L6]: raw = pd.read_csv('../../source/tr_eikon_eod_data.csv', 

















index_col=0, parse _dates=True) 


In [17]: symbol = '.SPX' 


In [18]: data = pd.DataFrame (raw[symbol] ) 





In [19]: data['returns'] = np.log(data / data.shift(1)) 


In [20]: data.dropna(inplace=True) 





In [21]: data.tail() 

Out [21]: .SPX returns 
Date 

2018-06-25 2717.07 -0.013820 
2018-06-26 2723.06 0.002202 
2018-06-27 2699.63 -0.008642 
2018-06-28 2716.31 0.006160 
2018-06-29 2718.37 0.000758 


标 普 500 指数 在 一 段 时 间 里 的 统计 属性 表明 , 投资 于 该 指数 看 多 头寸 的 最 优 比例 大 


约 为 4.5。 换 言 之 ， 对 于 每 1 美元 的 可 用 资金 ， 应 该 投入 4.5 美元 一 一 意味 着 根据 
最 优 的 凯利 “比例 ”( 或 者 在 这 种 情况 下 称 作 “因数 ”)， 杠 杆 比率 为 4.5。 其 他 条 件 
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不 变 的 情况 下 ,凯利 标准 表明 ， 杜 杆 比 率 越 高 ， 预 期 收益 









































越 低 : 
In [22]: mu = data.returns.mean() * 252 © 
In [23]: mu © 
Out [23]: 0.09898579893004976 
In [24]: sigma = data.returns.std() * 252 ** 0.5 @ 
In [25]: sigma @ 
Out [25]: 0.1488567510081967 
In [26]: r= 0.0 © 
In [27]: f = (mu - r) / sigma ** 2 @ 
In [28]: f O 
Out [28]: 4.4672043679706865 
@ 计算 年 化 收益 率 。 
@ 计算 年 化 波动 率 。 
O 将 无 风险 利率 设置 为 0 (简单 起 见 )。 
O 计算 投资 于 该 策略 的 最 优 凯 利 比 例 。 


下 面 的 代码 用 于 模拟 凯利 标准 及 最 优 杆 杆 比率 的 应 月 
初始 投入 总 资本 设置 为 1 f*。 


设置 为 1， 








按照 可 用 保证 金 调整 。 若 发 生 损 失 ， 则 资本 减少 ; 盘 利 则 资 





本 身 发 展 的 对 比如 








In [29]: equs 


In [30]: def 


for 


图 16-3 所 示 : 


= [] 


kelly strategy ( 工 ) : 
global equs 


equ = ‘equity _{:.2f}'.format (f) 
equs . append (equ) 

cap = 'capital_{:.2f}'.format (f) 
data[equ] = 1 © 

data[cap] = data[equ] * f @ 


i, t in enumerate (data.index[1:]): 
t_1 = data.index[i] © 


上 月。 为 了 简单 和 对 比 ， 初 始 保证 金 
根据 这 一 策略 动用 资金 的 绩效 ， 总 资本 每 日 


率 越 高 、 波 动 率 (方差 ) 








本 增加 。 股 票 头 二 与 指数 


data.loc[t, cap] = data[cap].loc[t_1] * \ 





math.exp(data['returns'].loc[t]) @ 
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data.loc[t, equ] = data[cap].loc[t] - \ 
data[cap].loc[t_1] + \ 
data[equ].loc[t_1] © 
data.loc[t, cap] = data[equ].loc[t] * f © 
In [31]: kelly_strategy(f * 0.5) @ 


In [32]: kelly_strategy(f * 0.66) ® 


In [33]: kelly_strategy(f) © 














[In [34]: print (data[equs] .tail()) 
equity 2.23 equity _2.95 equity 4.47 
Date 
2018-06-25 4.707070 6.367340 8.794342 
2018-06-26 4.730248 6.408727 8.880952 
2018-06-27 4.639340 6.246147 8.539593 
2018-06-28 4.703365 6.359932 8.775296 
2018-06-29 4.711332 6.374152 8.805026 
In [35]: ax = data['returns'].cumsum().apply (np.exp) .plot (legend=True, 


figsize=(10, 6)) 
data[equs].plot (ax=ax, legend=True) ; 


@ 为 保证 金 (equity) 生成 新 列 ， 将 初始 值 设置 为 1。 

@ 为 资本 (capital) 生成 一 个 新 列 ， 将 初始 值 设置 为 1. f*。 
© 为 前 值 选择 合适 的 DatetimeIndex 值 。 

© 根据 收益 率 计算 新 的 资本 头寸 。 

O 根据 资本 头寸 绩效 调整 保证 金 值 。 

O 根据 新 的 保证 金 头 二 和 固定 杠杆 比例 来 调整 资本 头寸 。 

O 模拟 基于 凯利 标准 策略 ， 将 f 减 半 。 

@ 使 用 f 的 2/3。 

© EH fo 


如 图 16-3 Bras, ENEA REE BUREE KT IAS BE RG (高 波动 率 ), 这 
在 杠杆 比率 为 4.47 下 可 以 直观 地 看 出 。 可 以 预期 ， 随 着 杠杆 的 增加 ， 保 证 金 头 才 的 波 
动 性 也 增 大 。 因 此 ， 从 业者 往往 降低 杠杆 ， 例 如 “凯利 杠杆 的 一 半 ” 一 一 在 当前 的 例 
子 中 为 0.5 + f* ~ 2.23。 图 16-3 还 表明 ， 保证金 头寸 值 的 变化 低 于 “凯利 杠杆 "。 随 着 
f 值 的 降低 ， 风 险 确 实 减 小 了 。 
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—— retums 

10 — equity_2.23 
一 equity 2.95 
— equity_4.47 





SA a w s? w° D? SÊ s“ s? 
Date 


E 16-3 在 不 同 f 值 下 ， 标 普 500 累计 绩效 与 保证 金 头 寸 的 对 比 











16.2 基于 ML 的 交易 策略 


第 14 章 介 绍 了 FXCM 交易 平台 、 其 REST API 和 Python 包装 器 库 多 cmpy。 本 节 将 预 
测 市 场 价格 变动 方向 的 基于 ML 的 方法 与 FXCM REST API 提供 的 历史 数据 结合 ， 对 
TWICE AMHARA SE EFT SS ee, BATE Te EB eee, KK 

还 考虑 了 比例 交易 成 本 一 一 买卖 价差 。 与 第 15 章 中 介绍 的 朴素 向 量化 事后 检验 方法 
相 比 ， 我 们 还 加 入 了 对 所 检验 交易 策略 风险 特性 的 更 深入 分 析 。 


16.2.1 向 量化 事后 检验 


事后 检验 基于 日 内 数据 ， 确 切 地 说 基于 5 分 钟 线 数据 。 下 面 的 代码 可 以 连接 到 FXCM 
RESTAPI， 读 取 整 个 月 的 5 分 钟 分 时 数据 。 图 16-4 显示 了 检索 数据 期 间 的 中 间 收 盘 价 。 


In [36]: import fxcmpy 











In [37]: fxcmpy.__version__ 
Out [37] T1133" 
In [38]: api = fxcmpy.fxcmpy (config_file='../fxcm.cfg') © 








In [39]: data = api.get_candles ('EUR/USD', period='m5', 
start='2018-06-01 00:00:00', 
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stop='2018-06-30 00:00:00') © 


In [40]: data.iloc[-5:, 4:] 


Out [40]: askopen askclose askhigh asklow tickqty 
date 
2018-06-29 20:35:00 1.16862 1.16882 1.16896 1.16839 601 
2018-06-29 20:40:00 1.16882 1.16853 1.16898 1.16852 387 
2018-06-29 20:45:00 1.16853 1.16826 1.16862 1.16822 592 
2018-06-29 20:50:00 1.16826 1.16836 1.16846 1.16819 842 
2018-06-29 20:55:00 1.16836 1.16861 1.16876 1.16834 540 


In [41]: data.info() 
<class 'pandas.core.frame.DataFrame'> 
DatetimeIndex: 6083 entries, 2018-06-01 00:00:00 to 2018-06- 





29 20:55:00 














Data columns (total 9 columns): 
bidopen 6083 non-null floaté4 
bidclose 6083 non-null floaté4 
bidhigh 6083 non-null float64 
bidlow 6083 non-null floaté4 
askopen 6083 non-null float64 
askclose 6083 non-null floaté4 
askhigh 6083 non-null float64 
asklow 6083 non-null float64 
tickqty 6083 non-null int64 
dtypes: float64(8), int64(1) 


memory usage: 475.2 KB 


In [42]: spread = (data['askclose'] - data['bidclose']).mean() @ 
spread @ 
Out [42]: 2.6338977478217845e-05 


In [43]: data['midclose'] = (data['askclose'] + data['bidclose']) / 2 ® 
In [44]: ptc = spread / data['midclose'].mean() @ 


ptc @ 
Out [44]: 2.255685318140426e-05 











In [45]: data['midclose'].plot(figsize=(10, 6), legend=True) ; 


O 连接 到 API 并 读 取 数据 。 
@ 计算 平均 买卖 价差 。 
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© MKAKA 5p Se OTE HC HP TL BP 
@ 根据 平均 价差 和 平均 收盘 中 间 价 ， 计 算 平均 比例 交易 成 本 。 





1.185 


— midclose 
1.180 
1.175 
1.170 
1.165 
1.160 
1.155 
1.150 
9 
® oo oe ge oe eX a ge got” 
49” SY 49> SY o> 9» 49» SY 49 
date 











16-4 ”欧元 /美元 汇率 ( 5 分 钟 线 ) 


基于 ML 的 策略 以 二 元 化 滞后 收益 率 数据 为 基础 。 换 言 之 ，ML 算法 从 向 上 及 向 下 
变动 的 历史 模式 中 学 习 ， 确 定 更 有 可 能 发 生 哪 一 个 方向 的 变动 。 相 应 地 ， 以 下 代码 
创建 值 为 0 和 1 的 特征 数据 ,以 及 值 为 1 和 -1 的 标签 数据 ( 表示 观测 到 的 市 场 变动 
方向 ): 


In [46]: data['returns'] = np.log(data['midclose'] / data['midclose'].shift (1)) 





In [47]: data.dropna (inplace=True) 


In [48]: lags = 5 








In [49]: cols = [] 
for lag in range(1, lags + 1): 
col = 'lag_{}'.format (lag) 
data[col] = data['returns'].shift(lag) © 
cols.append (col) 


In [50]: data.dropna (inplace=True) 


In [51]: data[cols] = np.where(data[cols] > 0, 1, 0) @ 
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: data['direction'] = np.where(data['returns'] > 0, 1, -1) © 
: data[cols + ['direction']].head() 
lag 1 lag_2 lag 3 lag 4 lag 5 direction 
date 
2018-06-01 00:30:00 0 1 0 1 1 
2018-06-01 00:35:00 1 0 0 1 
2018-06-01 00:40:00 1 1 0 1 1 
2018-06-01 00:45:00 1 1 0 of 
2018-06-01 00:50:00 1 1 l =a 








O 按照 滞后 期 数 ， 创 建 灌 后 收益 率 数据 。 


© 
© 














将 特征 值 转换 为 二 元 数据 。 
将 收益 率 数据 转换 为 方向 标签 数据 。 


分 定 特征 及 标签 数据 之 后 ， 就 可 以 应 用 不 同 的 有 监督 学 习 算法 了 。 在 下 文中 ， 我 们 使 








aw 








用 来 自 scikit-learn 库 的 支持 向 量 机 算法 。 代 码 以 顺序 训练 -测试 分 离 为 基础 ， 来 训练 和 





则 试 算法 交易 策略 。 该 模型 在 训练 和 测试 数据 上 的 准确 率 略 高 于 50%， 测 试 数据 上 的 








准确 率 甚至 还 更 高 一 些 。 在 金融 交易 环境 中 ， 人 们 可 能 会 用 交易 策略 的 “命中 率 ” 代 


替 准 确 率 ， 

In [54 
n [55 
n [56 
nm [57 
In [58 

Out [58 
In [59]: 

Out [59]: 

In [60]: 











CRER EREE TARRA TF 50%， 这 可 


AR, SUA HE e BOLE AE EAH LE CH 











from sklearn.svm import SVC 


from sklearn.metrics import accuracy_score 


: model = SVC(C=1, kernel='linear', gamma='auto') 





split = int(len(data) * 0.80) 


: train = data.iloc[:split] .copy () 


: model.fit(train[cols], train['direction']) 


SVC (C=1, cache_size=200, class_weight=None, coef0=0.0, 

decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear', 
max_iter=-1, probability=False, random_state=None, shrinking=True, 
tol=0.001, verbose=False) 


accuracy_score(train['direction'], model.predict (train[cols])) © 
0.5198518823287389 


test = data.iloc[split:].copy () 
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In [61]: test['position'] = model.predict (test [cols]) 


In [62]: accuracy_score(test['direction'], test['position']) @ 
Out [62]: 0.5419407894736842 


@ 从 样本 内 (训练 数据 ) 训练 模型 得 出 的 预测 准确 率 。 
@ 从 样本 外 (测试 数据 ) 训练 模型 得 出 的 预测 准确 率 。 
众所周知 ， 命 中 率 只 是 金融 交易 成 功 的 一 个 方面 。 此 外 ， 交 易 策 略 隐 仿 的 交易 成 
本 和 正确 进行 重要 交易 也 是 至 关 重要 的 。 为 此 ， 只 有 正规 的 向 量化 事后 检验 方法 
才能 够 评判 交易 策略 的 质量 。 下 面 的 代码 考虑 基于 平均 买卖 价差 的 比例 交易 成 本 。 
图 16-5 对 比 了 算法 交易 策略 ( 不 考虑 和 考虑 比例 交易 成 本 ) 与 被 动 基准 投资 的 


效 


日 
WN: 


























In [63]: test['strategy'] = test['position'] * test['returns'] 


In [64]: sum(test['position'].diff() != 0) @ 
Out [64]: 660 


In [65]: test['strategy_tc'] = np.where(test['position'].diff() 
test['strategy'] - ptc, 


test['strategy']) 


In [66]: test[['returns', 'strategy', 'strategy_tc']].sum( 
) .apply (np.exp) 
Out [66]: returns 0.999324 
strategy 1.026141 
strategy_tc 1.010977 


dtype: float64 


In [67]: test[['returns', 'strategy', 'strategy_tc']].cumsum( 


) -apply (np.exp) .plot (figsize=(10, 6)); 


得 出 基于 ML 算法 交易 策略 的 对 数 收益 率 。 
根据 头 才 变化 ， 计 算 交 易 策略 产生 的 交易 次 数 。 
每 当 交 易 进 行 ， 从 策略 当天 的 对 数 收益 率 中 扣除 比例 交易 成 本 。 














对 于 投资 和 交易 绩效 而 言 ， 正确 把 握 最 大 的 


!= 0, 
































原 注 





6 场 变 动 ( 即 最 大 的 向 上 及 向 下 运动 ) BREE, 
这 是 已 经 验证 过 的 事实 。 图 16-5 和 图 16-7 清晰 地 表示 了 这 一 特征 。 图 中 显示 ， 该 交易 策略 
错过 了 标的 金融 工具 的 大 幅 上 涨 ， 导 致 交易 策略 出 现 绩效 下 滑 。 
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图 16-5 ”欧元 /美元 汇率 与 算法 交易 策略 效果 


向 量化 事后 检验 的 局 限 性 

向 量化 事后 检验 在 测试 市 场 现实 与 策略 间接 近 程 度 方面 有 局 限 性 。 例 
如 ， 它 不 能 直接 包含 每 次 交易 的 国定 成 本 。 作 为 近似 计算 手段 ， 我 们 
可 以 取 平 均 比 例 交 易 成 本 (基于 平均 仓位 ) 的 倍数 ， 间 接地 考虑 固定 
交易 成 本 。 但是， 这 通常 不 精确 。 如 果 需 要 更 高 的 精确 度 ， 就 需要 其 
他 方法 ,例如 基于 事件 事后 检验 ， 这 种 方法 明确 地 循环 读 取 每 一 时 刻 
的 价格 数据 。 


16.2.2 ”最 优 杠杆 

有 了 交易 策略 的 对 数 收 益 率 数据 后 ， 我 们 就 可 以 计算 均值 和 方差 ， 以 便 根据 凯利 标准 
得 出 最 优 杠 杆 。 下 面 的 代码 将 上 述 数 值 按 比例 调整 为 年 化 值 ， 但 是 这 并 不 会 改变 通过 
凯利 标准 计算 出 的 杠杆 值 ， 因 为 收益 率 均 值 与 方差 以 同样 的 比例 调整 ; 











In [68]: mean = test[['returns', 'strategy_tc']].mean() * len(data) * 12 © 
mean 
Out [68]: returns -0.040535 
strategy_tc 0.654711 
dtype: float64 
In [69]: var = test[['returns', 'strategy_tc']].var() * len(data) * 12 @ 
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var 

Out [69]: returns 0.007861 
strategy_tc 0.007837 
dtype: float64 


In [70]: vol = var ** 0.5 © 
vol 

Out [70]: returns 0.088663 
strategy_tc 0.088524 
dtype: float64 


In [71]: mean / var © 

Out [71]: returns -5.156448 
strategy tc 83.545792 
dtype: float64 


In [72]: mean / var * 0.5 © 

Out [72]: returns -2.578224 
strategy_tc 41.772896 
dtype: float64 


@ 年 化 收益 率 均值 。 

@ 年 化 方差 。 

O 年 化 波动 率 。 

O 根据 凯利 标准 〈 完 整 凯 利 ) 算出 的 最 优 杠杆 。 
O 根据 凯利 标准 〈 半 饥 利 ) 算出 的 最 优 杠 杆 。 


使 用 “ 半 凯 利 ” 标 准 ， 该 交易 策略 的 最 优 杠 杆 大 约 为 40。 在 许多 经 纪 商 ( 如 FXCM ) 
和 人 金融 工具 ( 如 外 汇 及 差价 合约 CFD) 上 ， 即 便 是 散户 也 可 以 实现 这 样 的 杠杆 比率 '。 
16-6 展示 了 该 交易 策略 ( 含 交易 成 本 ) 在 不 同 杠杆 值 下 的 绩效 : 


In [73]: to plot = ['returns', 'strategy_tc'] 

















In [74]: for lev in [10, 20, 30, 40, 50]: 
label = 'lstrategy_tc_%sd' % lev 
test[label] = test['strategy_tc'] * lev © 
to_plot.append (label) 


In [75]: test[to_plot].cumsum().apply(np.exp) .plot (figsize=(10, 6)); 

















显著 增 大 了 与 交易 策略 相关 的 风险 。 交 易 者 应 该 小 心 阅 读 风险 免责 声明 及 规章 。 事 后 检验 中 的 
E 效 益 也 不 能 保证 未 来 的 绩效 。 这 里 看 到 的 所 有 结果 仅 为 了 说 明 编 程 与 分 析 方法 的 应 用 。 在 某 些 司 
法 管辖 区 域 (如 德国 )， 杠 杆 比率 会 根据 不 同 组 金融 工具 来 对 散户 进行 限制 。 一 一 原 注 
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O 对 不 同 杠杆 值 下 的 策略 收益 进行 比例 调整 。 





— returns 
2.0 —— strategy tc 
—— Istrategy_tc_10 
—— Istrategy tc 20 
一 一 Istrategy_tc_30 
—— Istrategy tc 40 


—— Istrategy tc 50 
1.6 


1.8 








ale, 
AA wal aN! 
À AAEN AAN 
1.0 _ = 
26 27 28 29 30 
jun 
2018 
date 





图 16-6 ”算法 交易 策略 在 不 同 杠杆 值 下 的 绩效 


16.2.3 ”风险 分 析 


由 于 杠杆 显著 地 增加 了 与 交易 策略 相关 的 风险 ， 所 以 进行 更 深入 的 风险 分 析 似乎 是 合 
适 的 举措 。 下 面 的 风险 分 析 假定 杠杆 比率 为 30。 首 先 , 计算 最 大 跌幅 和 最 长 下 跌 期 间 。 
最 大 跌幅 是 最 近 高 点 之 后 的 最 大 损失 (下跌 )。 相 应 地 ， 最 长 下 跌 期 间 是 交易 策略 回 到 
最 近 高 点 所 需 的 最 长 时 间 。 分 析 假 定 初 始 保证 金 头 二 为 3333 欧元 ， 在 杠杆 比率 为 30 的 
情况 下 ， 初 始 仓位 约 为 10 万 欧元 。 我 们 还 假设 ,不 管 绩效 如 何 ， 一段 时 间 内 保证 金 不 
做 任何 调整 : 


In [76]: equity = 3333 0 























In [77]: risk = pd.DataFrame(test['lstrategy_tc_30']) @ 
In [78]: risk['equity'] = risk['lstrategy_tc_30'] .cumsum( 
) .apply (np.exp) * equity ® 
In [79]: risk['cummax'] = risk['equity'].cummax() @ 
In [80]: risk['drawdown'] = risk['cummax'] - risk['equity'] © 
In [81]: risk['drawdown'] .max() © 
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Out [81]: 


In [82]: 


Out [82]: 


781.7073602069818 


t max = risk['drawdown'].idxmax() @ 
t max @ 
Timestamp ('2018-06-29 02:45:00") 


初始 保证 金 。 
相关 对 数 收益 率 时 间 序 列 。 





一 段 时 间 内 的 累计 最 大 价值 。 
一 段 时 间 内 的 下 跌幅 度 。 

@ 最 大 跌幅 值 。 

@ 发 生 的 时 间 点 。 

从 技术 上 说 , (新 ) 高 点 的 特征 是 跌幅 值 为 0。 下 跌 期 间 是 两 个 此 类 高 点 之 间 的 时 间 。 


o 
© 
© 根据 初始 保证 金 做 比例 调整 。 
9 
© 

















图 16-7 可 视 化 了 最 大 跌幅 与 下 跌 期 间 : 








In [83 
In [84 
In [85 
Out [85 
n [86 
In [87 
Out [87 
In [88 
Out [88 
n [89 











temp = risk['drawdown'] [risk['drawdown'] == 0] © 


periods = (temp.index[1:].to_pydatetime() - 
temp.index[:-1].to_pydatetime()) @ 


periods[20:30] @ 
array ([datetime.timedelta (seconds=68700), 


datetime.timedelta (seconds=72000), 


datetime.timedelta(seconds=1800), datetime.timedelta (seconds=300), 


datetime.timedelta(seconds=600), datetime.timedelta (seconds=300) , 


datetime.timedelta (seconds=17400), 


datetime.timedelta (seconds=4500), datetime.timedelta(seconds=1500), 














datetime.timedelta(seconds=900)], dtype=object) 


t per = periods.max() ® 


t per © 
datetime.timedelta (seconds=76500) 


t_per.seconds / 60 / 60 9 
21525 


risk[['equity', 'cummax']].plot(figsize=(10, 6)) 
plt.axvline(t_max, c='r', alpha=0.5); 
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© © © © 


确定 高 点 ， 其 跌幅 值 必须 为 0。 
计算 所 有 高 点 之 间 的 timedelta 值 。 
以 秒表 示 的 最 长 下 跌 期 。 

以 小 时 表示 的 最 长 下 跌 期 。 








5000 


4750 


4500 


4250 


4000 


3750 
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— equity 
—— cummax 


26 27 28 29 30 


date 





图 16-7 最 大 跌幅 ( 垂直 线 ) 和 下 跌 期 间 ( 水 平 线 ) 








另 一 个 重要 风险 指标 是 风险 价值 ( VaR )， 它 用 金额 表示 ， 代 表 着 某 一 时 段 和 置信 度 下 
的 预期 最 大 损失 。 下 面 的 代码 根据 一 段 时 间 内 杠杆 化 交易 策略 保证 金 头 二 的 对 数 收益 
率 ， 求 得 不 同 置信 和 度 下 的 VaR。 时 间 间 隔 固定 为 5 分 钟 : 


In 








91] s 


92): 


93): 


94 


95]: 














import scipy.stats as scs 


percs = np.array([0.01, 0.1, 1., 2.5, 5.0, 10.0]) © 


risk['returns'] = np.log(risk['equity'] / 
risk['equity'].shift(1)) 


: VaR = scs.scoreatpercentile (equity * risk['returns'], percs) @ 


def print_var(): 
print ('%16s %16s' % ('Confidence Level', 'Value-at-Risk'") ) 
print (33 * t=") 
for pair in zip(percs, VaR): 
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print ('%$16.2f %16.3£' % (100 - pair[0], -pair[1])) © 


In [96]: print_var() ® 





Confidence Level Value-at-Risk 
99.99 400.854 
99.90 115932 
99.00 88.139 
97.50 60.485 
95.00 45.010 
90.00 32.056 





@ 定义 要 使 用 的 百分比 值 。 
@ 根据 百分比 值 计算 VaR. 
O 将 百分比 值 转换 为 置信 和 度 ，VaR 值 ( 负 值 ) 转换 为 正 值 ， 以 便 打 印 。 


最 后 ， 如 下 代码 通过 对 原始 DataFrame 对 象 重新 采样 ， 计 算 一 个 小 时 的 VaR 值 。 实 际 
上 ， 除 了 最 高 置信 度 之 外 ， 其 他 置信 度 下 的 VaR 值 都 增 大 了 : 





In 


In 








97]: hourly = risk.resample('1H', label='right').last() © 


98]: hourly['returns'] = np.log(hourly['equity'] / 
hourly['equity'].shift(1)) 


99]: VaR = scs.scoreatpercentile (equity * hourly['returns'], percs) @ 


100]: print_var () 
Confidence Level Value-at-Risk 





99.99 389.524 
99.90 372.657 
99.00 205.662 
97.50 186.999 
95.00 164.869 
90.00 101.835 


O 重新 采样 数据 ， 将 5 分 钟 分 时 数据 转换 为 1 小 时 分 时 数据 。 
@ 用 重新 采样 的 数据 再 次 计算 VaR 值 。 


16.2.4 持久 化 模型 对 象 


一 旦 根据 事后 检验 、 杠 杆 化 和 风险 分 析 结 果 “ 接 受 ” 了 算法 交易 策略 ， 那 么 模型 
对 象 就 可 以 持久 化 以 供 以 后 部 署 了 。 现 在 ， 它 体现 了 基于 ML 的 交易 策略 或 者 交易 


算法 : 
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In [101]: import pickle 


In [102]: pickle.dump(model, open('algorithm.pkl', 'wb')) 


16.3 在线 算法 


目前 为 止 测试 的 交易 算法 是 离线 算法 。 这 种 算法 使 用 完整 的 数据 集 解 决 手 头 的 问题 。 
我 们 的 问题 是 根据 二 元 特征 数据 和 方向 标签 数据 训练 一 个 SVM 算法 。 实 践 中 , 在 金融 
市 场 中 部 署 交易 算法 时 ， 它 必须 使 用 逐步 送 代 的 数据 ， 以 预测 下 一 时 间 间 隔 的 市 场 变 
动 方向 。 本 节 使 用 16.3 节 的 持久 化 模型 对 象 ， 并 将 其 佬 入 流 数据 环境 。 将 离线 交易 算 
法 转换 为 在 线 交 易 算法 的 代码 主要 处 理 以 下 问题 。 












































PERABRUH 
分 笔 交易 数据 实时 送 达 ， 实 时 处 理 。 
分 笔 交易 数据 重新 采样 为 适用 于 交易 算法 的 分 时 区 间 。 
FRM 
交易 算法 生成 未 来 相关 时 间 段 市 场 变动 方向 的 预测 。 
X A TT ŽŻ 


按照 当前 头寸 和 算法 生成 的 预测 (信号 )， 下 单 或 者 保持 头寸 。 
14.3.2 节 介 绍 了 从 FXCM REST API 中 实时 读 取 分 笔 数 据 的 方法 。 基 本 方法 是 订阅 某 个 
市 场 数 据 流 ， 并 传递 一 个 处 理 数 据 的 回调 函数 。 
首先 ， 加 载 持久 化 交易 策略 一 一 它 代 表 着 交易 逻辑 。 定 义 一 个 助手 函数 以 在 交易 算法 
进行 交易 时 打印 开 仓 头寸 也 可 能 很 有 用 : 


In [103]: algorithm = pickle.load(open('algorithm.pkl', 'rb')) 











In [104]: algorithm 

Out [104]: SVC(C=1, cache_size=200, class_weight=None, coef0=0.0, 
decision_function_shape='ovr', degree=3, gamma='auto', 
kernel='linear', max_iter=-1, probability=False, 
random_state=None, shrinking=True, tol=0.001, verbose=False) 


In [105]: sel = ['tradeId', ‘amountK', 'currency', 
"grossPL', ‘isBuy'] © 


In [106]: def print_positions (pos): 
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print ('\n\n' + 50 * '="') 

print ('Going {}.\n'.format (pos) ) 
time.sleep(1.5) @ 

print (api.get_open_positions()[sel]) © 
print(50 * '=" + '\n\n') 


@ 定义 显示 的 DataFrame 列 。 

@ 等 待 订单 执行 并 将 其 反映 在 开 仓 头 寸 中 。 
© 打印 开 仓 头 寸 。 

在 定义 和 启动 在 线 算法 之 前 ,设置 几 个 参数 : 


In [107]: symbol = 'EUR/USD' © 
bar = '15s' @ 
amount = 100 ® 
position = 0 @ 
min_bars = lags + 1 © 
df = pd.DataFrame() © 


@ 交易 的 金融 工具 代码 。 








@ 重新 采样 分 时 长 度 ; 为 了 易于 测试 , 分 时 长 度 可 以 比 实际 部 署 长 度 缩短 一 些 ( 例如 ， 


用 15 秒 而 不 是 15 分 钟 )。 

© 交易 数量 (1000 的 倍数 )。 

O 初始 头寸 (中立 )。 

O 实现 第 一 次 预测 和 交易 所 需 的 最 小 重 采样 时 段 数量 。 
@ 以 后 用 于 重 采样 数据 的 空 DataFrame WR, 








下 面 是 回调 函数 automated_strategy () , 它 将 交易 算法 转换 为 在 实时 环境 中 使 用 : 





In [108]: def automated_strategy(data, dataframe): 








global min_bars, position, df 
ldf = len(dataframe) © 
df = dataframe.resample(bar, label='right') .last() .ffi11() © 
if ldf % 20 == 0: 
print ('%S3d' % len(dataframe), end=',"') 
if len(df) > min_bars: 
min bars = len(df) 
df['Mid'] = df[['Bid', 'Ask']].mean(axis=1) 
df['Returns'] = np.log(df['Mid'] / df['Mid'].shift (1) ) 
df['Direction'] = np.where(df['Returns'] -1) 
features = df['Direction'].iloc[-(lags + 1):-1] ® 
features = features.values.reshape (1, 
16.3 517 





signal = algorithm.predict (features) [0] © 


if position in [0, -1] and signal == 1: © 
api.create_market_buy_order ( 
symbol, amount - position * amount) 
position = 1 
print_positions ('LONG') 


elif position in [0, 1] and signal == -1: @ 
api.create_market_sell_order ( 
symbol, amount + position * amount) 
position = -1 
print_positions ('SHORT') 


if len(dataframe) > 350: ® 
api.unsubscribe market_data('EUR/USD') 
api.close_all() 


O 获取 包含 分 笔 数 据 的 DataFrame WAKE. 
@ 重新 根据 定义 分 时 长 度 以 重新 采样 分 笔 数 据 。 
© 选择 所 有 滞后 期 数 的 相关 特征 值 。 

O 将 其 重 整 为 模型 可 用 于 预测 的 形式 。 

O 生成 预测 值 (+1 或 -1 ). 
© 
@ 
© 

















进入 (或 保持 ) 多 头头 才 的 条 件 。 
进入 (或 保持 ) 空头 头 才 的 条 件 。 
停止 交易 、 全 部 平 仓 的 条 件 〈 根据 读 取 的 分 笔 交 易 数 任意 定义 )。 








16.4 基础 设施 与 部 署 
部 署 实 盘 自 动 化 算法 交易 策略 需要 合适 的 基础 设施 。 这 种 基础 设施 应 该 满足 如 下 条 件 。 
T 
部 署 算法 交易 策略 的 基础 设施 应 该 具备 高 可 用 性 ( 例如 ，>99.9% )， 还 应 该 注意 可 
靠 性 (自动 备份 、 驱 动 器 与 Web 连接 元 余 等 )。 
JEBE 


根据 处 理 的 数据 量 和 算法 产生 的 计算 需求 ， 基 础 设施 必须 有 足够 的 CPU 核心 、 工 
作 内 存 (RAM ) 和 存储 (SSD); 此 外 ，Web 连接 应 该 足够 快 。 
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KAN 
操作 系统 及 在 其 上 运行 的 应 用 应 该 有 强 密码 及 SSL 加 密 保 护 ; 硬件 应 该 有 防火 、 
防水 保护 ， 并 避免 未 授权 物理 访问 。 
本 质 上 ， 这 些 需 求 只 能 通过 从 专业 数据 中 心 或 云 提供 商 租赁 合适 的 基础 设施 来 实现 。 通 常 只 
有 人 金融 市 场 上 较 大 (其 至 是 最 大 ) 的 参与 者 , 投资 满足 上 述 需 求 的 物理 基础 设施 才 是 划算 的 。 
从 开发 和 测试 的 角度 看 ， 即 便 DigitalOcean 最 小 的 Droplet ( 云 实例 ) 也 足以 完成 入门 
工作 了 。 在 本 书写 作 期 间 ， 这 样 的 Droplet 每 月 成 本 为 5 美元 ; 使 用 费 按 小 时 计算 ， 创 
建 一 台 服 务 器 只 需要 几 分 钟 ， 将 其 销毁 则 只 需 几 秒 钟 。， 
2.4 节 详 细 介绍 了 设置 DigitalOcean Droplet 的 方法 ， 你 可 以 调整 其 中 的 bash 脚本 ， 以 
反映 对 Python 库 的 个 别 需 求 。 






























































操作 风险 

虽然 自动 化 算法 交易 策略 的 开发 与 测试 可 以 在 本 地 计算 机 ( 台式 电 
脑 、 笔记 本 电脑 等 ) 上 进行 ， 但 这 种 环境 不 适 于 部 署 实 盘 交易 策略 。 
Web 连接 丢失 或 者 短暂 的 停电 可 能 使 整个 算法 瘫 痰 ,导致 投资 组 合 里 
出 现 意外 的 开 仓 头寸 ,或 者 导致 效 据 集 损坏 ( 由 于 遗漏 了 实时 分 笔 交 
易 数据 )， 可 能 产生 错误 信号 和 意外 的 交易 /头寸 。 











16.5 日 志 与 监控 


假定 自动 化 算法 交易 策略 部 署 在 一 台 远 程 服务 器 ( 云 实例 、 租 赁 服务 器 等 ) 上 ， 所 有 
必要 的 Python 库 已 经 安装 ( 参见 2.4 节 )， 而 且 Jupyter Notebook 也 已 经 安全 地 运行 。 
从 算法 交易 者 的 角度 看 ， 如 果 他 们 不 希望 整 天 坐 在 屏幕 前 面 和 登录 到 服务 器 上 ， 还 需 
要 考虑 什么 呢 ? 


本 节 介 绍 这 方面 的 两 个 重要 主题 : 日 志 与 实时 监控 。 日 志 在 磁 盘 上 保存 信息 和 事件 以 
供 以 后 检查 ， 这 是 软件 应 用 开发 与 部 署 中 的 标准 做 法 。 但 是 ,我 们 的 焦点 应 该 在 金融 
方面 ， 要 记录 重要 的 金融 数据 与 时 间 信 息 ， 供 以 后 检查 分 析 。 使 用 套 接 字 通信 的 实时 
监控 也 是 如 此 。 通 过 套 接 字 ， 我 们 可 以 创建 稳定 、 实 时 的 重要 金融 特征 流 ， 即 便 部 署 
发 生 在 云端 ， 我 们 也 可 以 从 本 地 计算 机 上 读 取 和 处 理 这 些 信息 。 

16.8.1 节 介绍 了 一 个 实现 以 上 特征 的 脚本 ， 它 利用 了 16.4 节 中 的 代码 。 该 脚本 中 的 代码 
可 以 根据 持久 化 算法 对 象 ， 在 远程 服务 器 上 部 署 算法 交易 策略 。 它 还 根据 一 个 自 定 义 
函数 来 添加 日 志 与 监控 功能 ， 该 函数 使 用 ZeroMQ 进行 套 接 字 通 信 。 与 16.8.2 节 中 的 
简短 脚本 相 结 合 ， 它 可 以 实施 监控 远程 服务 器 上 的 活动 。 

























































































m] 
H 


1 使 用 邀请 链接 可 以 在 DigitalOcean 注册 新 账户 时 得 到 10 美元 的 优惠 。 一 一 原 注 
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16.8.1 节 中 的 脚本 运行 《本 地 或 者 远程 ) 时 ， 记 录 并 通过 套 接 字 发 送 的 输出 如 下 所 示 : 


2018-07-25 09:16:15.568208 








NUMBER OF BARS: 24 


























MOST RECENT DATA 

Mid Returns Direction 
2018-07-25 07:15:30 1.168885 -0.000009 = 
2018-07-25 07:15:45 1.168945 0.000043 1 
2018-07-25 07:16:00 1.168895 -0.000051 -1 
2018-07-25 07:16:15 1.168895 -0.000009 -1 
2018-07-25 07:16:30 1.168885 -0.000017 = 
features: [[ 1 -1 1 -1 -1]] 
position: =I 
signal: aL 


2018-07-25 09:16:15.581453 








no trade placed 





****END OF CYCLE*** 
2018-07-25 09:16:30.069737 














NUMBER OF BARS: 25 


























MOST RECENT DATA 

Mid Returns Direction 
2018-07-25 07:15:45 1.168945 0.000043 1 
2018-07-25 07:16:00 1.168895 -0.000051 -1 
2018-07-25 07:16:15 1.168895 -0.000009 -1 
2018-07-25 07:16:30 1.168950 0.000034 1 
2018-07-25 07:16:45 1.168945 -0.000017 -1 
features: [[-1 1 -1 -1 1]] 
position: -1 
signal: i; 
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2018-07-25 09:16:33.035094 














Going LONG. 


tradeId amountK currency grossPL isBuy 
0 61476318 100 EUR/USD -2 True 











Sx *E ND. OF CYCLE* ** 


在 本 地 运行 16.8.2 节 的 脚本 ， 可 以 实时 读 取 和 处 理 这 些 信息 。 当 然 ， 按 照 需 求 调 整 日 志 
和 流 数据 很 容易 。 同样 ， 我 们 也 可 以 持久 化 执行 交易 脚本 期 间 创 建 的 DataFrame 对 
象 。 而 且 ， 交 易 脚 本 和 整个 逻辑 都 可 以 调整 ， 以 包含 用 程序 方式 止 损 或 者 采用 利润 目 
标的 元 素 。 我 们 还 可 以 使 用 EXCM 交易 API 中 更 复杂 的 订单 类 型 。 























考虑 所 有 风险 

交易 货币 组 合 和 CFD 涉及 许多 金融 风险 。 为 这 些 金融 工具 实施 算法 
交易 策略 自然 会 导致 一 系列 附加 风险 。 其 中 包括 交易 与 执行 逻辑 的 缺 
陷 ， 以 及 一 些 技 术 风 险 ， 如 套 接 字 通 信 问 题 、 部 署 期 间 分 笔 数据 读 取 
延迟 甚至 丢失 。 因 此 ， 以 自动 化 方式 部 署 交易 策略 时 ， 应 该 确保 能 识 
别 、 评 估 和 处 理 所 有 相关 市 场 、 执 行 、 运 营 、 技 术 及 其 他 风险 。 本 章 
介绍 的 代码 仅 用 于 技术 说 明 目 的 。 











16.6 ”结语 


本 章 介 绍 了 算法 交易 策略 一 一 以 机 带 学 习 分 类 算法 为 基础 ， 预 测 市 场 变动 方向 的 自动 
化 部 署 。 它 包括 各 种 重要 主题 : 资本 管理 ( 以 凯利 标准 为 基础 )、 向 量化 绩效 与 风险 事 
后 检验 、 将 离线 算法 转换 为 在 线 交 易 算法 、 对 应 基础 设施 部 署 ， 以 及 部 署 期 间 的 日 志 
与 监控 。 

本 章 的 主题 很 复杂 ， 需 要 机 器 学 习 从 业者 具有 广泛 技能 。 另 一 方面 ， 拥 有 来 自 FXCM 
等 交易 商 的 算法 交易 REST API， 可 以 明显 简化 自动 化 任务 ， 因 为 其 核心 部 分 主要 归结 
为 使 用 Python 包装 器 库 fxcmpy 读 取 数据 和 下 单 。 围 绕 这 一 核心 ,我们 还 补充 了 绥 解 









































1 注意 ， 两 个 脚本 中 实现 的 套 接 字 通信 没有 加 密 。 在 Web 上 发 送 明 文 ， 这 在 生产 环境 下 可 能 带 来 安 
全 风险 。 一 一 原 注 
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运营 与 技术 风险 的 内 容 。 


16.7 Python 脚本 


16.7.1 自动 化 交易 策略 
下 面 是 以 自动 化 方式 实施 算法 交易 策略 的 Python 脚本 ， 它 包括 日 志 与 监控 : 








Automated ML-Based Trading Strategy for FXCM 
Online Algorithm, Logging, Monitoring 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


SF FS FH FH FH 站 


import zmq 

import time 

import pickle 
import fxcmpy 
import numpy as np 


import pandas as pd 





import datetime as dt 


sel = ['tradeId', '‘'amountK', 'currency', 


"grossPL', '‘isBuy'] 


log_file = 'automated_strategy.log' 


# loads the persisted algorithm object 
algorithm = pickle.load(open('algorithm.pkl', 'rb"')) 


# sets up the socket communication via ZeroMQ (here: "publisher") 





context = zmq.Context () 
socket = context.socket (zmq. PUB) 


# this binds the socket communication to all IP addresses of the machine 
socket.bind('tcp://0.0.0.0:5555') 
def logger_monitor(message, time=True, sep=True): 


''' Custom logger and monitor function. 


with open(log_file, 'a') as f: 
t = str(dt.datetime.now() ) 
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msg = '! 


if time: 

msg += '\n' +t + '\n' 
if sep: 

msg += 66 * '=' + '\n!' 


msg += message + '\n\n' 

# sends the message via the socket 
socket.send_string (msg) 

# writes the message to the log file 





f.write (msg) 


def report_positions (pos): 


def 


''' Prints, logs and sends position data. 


one 


out = '\n\n' + 50 * "=" + "\n'! 
out += 'Going {}.\n'.format (pos) + '\n' 


time.sleep(2) # waits for the order to be executed 


out += str(api.get_open_positions()[sel]) + 


out += 50 * "=" + "\n' 
logger_monitor (out) 
print (out) 


automated_strategy (data, dataframe): 


"An! 


''' Callback function embodying the trading logic. 


one 


global min_bars, position, df 
# resampling of the tick data 


df = dataframe.resample(bar, label='right"').last().ffi11() 


if len(df) > min bars: 


min bars = len (df) 


logger_monitor ('NUMBER OF TICKS: {} | '.format (len(dataframe)) + 
"NUMBER OF BARS: {}!'.format (min bars)) 

# data processing and feature preparation 

df['Mid'] = df[['Bid', 'Ask']].mean(axis=1) 

df['Returns'] = np.log(df['Mid'] / df['Mid'].shift (1) ) 


df['Direction'] = np.where(df['Returns'] > 0, 1, -1) 
# picks relevant points 
features = df['Direction'].iloc[-(lags + 1): -1] 


# necessary reshaping 


features = features.values.reshape(1, -1) 


# generates the signal (+1 or -1) 


signal = algorithm.predict (features) [0] 
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if 


# logs and sends major financial information 
logger_monitor('MOST RECENT DATA\n' + 
str(df[['Mid', 'Returns', 'Direction']].tail()), 





False) 

logger_monitor('features: ' + str(features) + '\n' + 
‘position: ' + str(position) + '\n' + 
‘signal: ' + str(signal), False) 


# trading logic 
if position in [0, -1] and signal == 1: # going long? 
api.create_market_buy_order ( 
symbol, size — position * size) # places a buy order 
position = 1 # changes position to long 
report_positions('LONG') 


elif position in [0, 1] and signal == -1: # going short? 
api.create_market_sell_order ( 
symbol, size + position * size) # places a sell order 
position = -1 # changes position to short 
report_positions ('SHORT') 
else: # no trade 


logger_monitor('no trade placed') 





logger_monitor('****END OF CYCLE***\n\n', False, False) 


if len(dataframe) > 350: # stopping condition 


api.unsubscribe market_data('EUR/USD') # unsubscribes from data stream 
report_positions('CLOSE OUT') 








api.close_all() # closes all open positions 
logger_monitor('***CLOSING OUT ALL POSITIONS***') 


name == ' main __': 








symbol = 'EUR/USD' # symbol to be traded 


bar 

size 
posi 
lags 


= '15s' # bar length; adjust for testing and deployment 
= 100 # position size in thousand currency units 

tion = 0 # initial position 

= 5 # number of lags for features data 


min_bars = lags + 1 # minimum length for resampled DataFrame 


df = 


pd.DataFrame () 


# adjust configuration file location 


api 
# th 
api. 


= fxcmpy.fxcmpy (config_file='../fxcm.cfg') 
e main asynchronous loop using the callback function 
subscribe market_data(symbol, (automated_strategy, ) ) 
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第 16 章 自动 化 交易 


16.7.2 策略 监控 
下 面 的 Python 脚本 通过 套 接 字 通 信 ， 实 现 自动 化 算法 交易 策略 的 本 地 或 远程 监控 : 





Automated ML-Based Trading Strategy for FXCM 
Strategy Monitoring via Socket Communication 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


import zmq 
# sets up the socket communication via ZeroMQ (here: "subscriber") 
context = zmq.Context () 


socket = context.socket (zmq.SUB) 


# adjust the IP address to reflect the remote location 
socket.connect ('tcp://REMOTE_IP_ADDRESS:5555') 

















# configures the socket to retrieve every message 








socket.setsockopt_string(zmq.SUBSCRIBE, '') 


while True: 





msg = socket.recv_string() 


print (msg) 


16.8 延伸 阅读 


本 草 引 用 的 论文 如 下 : 
e _Rotando, Louis, and Edward Thorp (1992). “The Kelly Criterion and the Stock Market.” 
The American Mathematical Monthly, Vol. 99, No. 10, pp. 922-931. 


e Hung, Jane (2010): “Betting with the Kelly Criterion.” 
涵盖 Python 算法 交易 的 全 面 在 线 培训 课程 请 参见 Python Quants 官网 。 
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第 5 部 分 


0UUUU 





本 部 分 关注 基于 规模 较 小 、 但 是 仍然 很 强大 的 蒙特 卡 洛 模拟 期 权 及 衍生 品 定价 的 实际 
应 用 的 开发 。 最 终 目 标 是 一 组 Python 类 一 ”我们 称 之 为 衍生 品 分 析 (Derivatives 
AnalytiX, DX ) EMEF. 它 可 以 完成 以 下 工作 。 
st HE 
为 了 折 现 目的 建立 短期 利率 模型 ， 建 立 欧式 和 美式 期 权 的 模型 ， 包 括 它 们 的 标的 
风险 因素 以 及 相关 的 市 场 环境 ; 建立 更 复杂 的 投资 组 合 模型 ， 包 含 多 种 期 权 和 多 
种 可 能 相关 的 标的 风险 因素 。 


FEH 
根据 几何 布朗 运动 、 跳 跃 扩散 和 平方 根 扩散 来 模拟 风险 因素 ; 同时 ， 连 贯 地 模拟 
一 些 此 类 风险 因素 ,不管 它们 是 否 相关 。 

te lh 


按照 风险 中 立 估 值 方法 ,估算 任意 收益 的 欧式 和 美式 期 权 价值 ; 以 一 致 、 全 面 的 
方式 估算 由 这 些 期 权 组 成 的 投资 组 合 的 价值 。 


Mi gE 


以 独立 于 标的 风险 因素 或 者 行 权 类 型 的 方式 ， 从 数值 上 估算 非常 重要 的 “期 权 希 
腊 字 母 ” 一 一 也 就 是 期 权 / 衍 生 品 的 Delta 和 Vega 值 。 




























































































1 期 权 交 易 以 及 相关 主题 ( 如 市 场 基础 知识 以 及 所 谓 的 “期 权 希 腊 字 母 ” 在 期 权 风 险 管理 中 的 角色 ) 
的 简介 和 全 面 概述 ， 请 参见 James Bittman (2009) 的 Trading Options as a Professional ( McGraw Hill, 
New York )。 一 一 原 注 




















ALF 


使 用 该 库 以 市 场 为 基础 (使 用 经 过 检验 的 DAX30 指数 模型 ) 估算 以 DAX30 股票 
指数 为 标的 的 非 交 易 美式 期 权 投 资 组 合 价值 ， 并 加 以 管理 。 

本 部 分 介绍 的 材料 依赖 于 DX 分 析 库 ， 该 库 是 由 本 书 作者 和 Python Quants 股份 有 限 公 

司 开发 和 提供 的 ， 读 者 也 可 通过 Quants 平台 获取 。 该 库 的 完整 版 本 可 以 进行 复杂 、 多 

风险 衍生 物 和 交易 账册 的 建 模 、 定 价 及 风险 管理 。 

本 部 分 包括 以 下 几 章 。 

。 第 17 章 以 理论 和 技术 的 形式 介绍 估 值 框架 。 从 理论 上 说 ， 资 产 定价 基本 定理 和 风 
险 中 立 估 值 方法 是 核心 。 而 在 技术 方面 ， 这 一 章 介绍 用 于 风险 中 立 折 现 和 市 场 环 
境 的 Python 类 。 

。 第 18 章 关注 基于 几何 布朗 运动 、 跳 跃 扩散 和 平方 根 扩散 过 程 的 风险 因素 模拟 ; 讨 
论 1 个 通用 类 和 3 个 特殊 类 。 

。 第 19 章 介绍 根据 单一 潜在 风险 因素 估算 单一 欧式 或 者 美式 衍生 品 价值 的 方法 ; E 
要 的 组 成 部 分 仍然 是 一 个 通用 类 和 两 个 特殊 类 。 通 用 类 可 以 独立 于 期 权 类 型 估算 
Delta 和 Vega 值 。 

。 第 20 章 介 绍 基于 多 种 ( 可 能 相关 的 ) 潜在 风险 因素 ， 估 算 可 能 包含 多 种 衍生 品 的 
复杂 投资 组 合 的 价值 的 方法 ; 本 章 还 将 介绍 一 个 用 于 建立 衍生 品 头 寸 模型 的 简单 
类 和 一 个 更 复杂 的 、 用 于 一 致 投资 组 合 估 值 的 类 。 

。 第 21 章 利用 其 他 章 中 开发 的 DX 库 ， 来 估算 DAX30 股票 指数 美式 看 跌 期 权 投资 
组 合 的 价值 并 对 其 加 以 管理 。 
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第 17 章 


OOU 





复 利 是 有 史 以 来 最 大 的 数学 发 现 。 
阿尔 伯 特 。 爱 因 斯 坦 





本 章 介绍 开发 DX 库 所 需 的 基本 概念 ， 并 为 其 提供 一 个 框架 。 我 们 将 简短 地 回顾 一 下 
资产 定价 基本 定理 ， 这 一 理论 为 模拟 和 估 值 提供 了 理论 背景 。 然 后 ， 本 章 介绍 日 期 处 
理 和 风险 中 立 折 现 。 我 们 只 考虑 简单 的 情况 一 一 固定 短期 利率 折 现 ， 更 复杂 和 现实 的 
模型 很 容易 添加 到 库 中 。 本 章 还 介绍 市 场 环境 的 概念 一 一 这 是 后 续 章 节 中 几乎 所 有 其 
他 类 实例 化 所 需 的 一 组 常量 、 列 表 和 曲线 。 


本 章 由 以 下 内 容 组 成 。 
HP RUBKALE 

本 节 介 绍 资产 定价 基本 定理 ， 它 为 我 们 要 开发 的 库 提 供 了 理论 背景 。 
Ais af 

本 节 开 发 一 个 类 ， 该 类 用 于 期 权 与 其 他 衍生 工具 未 来 收益 的 风险 中 立 折 现 。 
PBR 

本 节 开 发 一 个 类 ， 该 类 可 以 管理 单一 金融 工具 与 多 金融 工具 投资 组 合 定价 的 市 场 环境 。 



























































17.1 资产 定价 基本 定理 


资产 定价 基本 定理 是 现代 金融 理论 和 数学 的 基石 和 成 功 案例 之 一 。 它 的 中 心思 想 是 鞭 























1 对 所 涉 数 学 机 制 的 全 面 研 究 和 细节 参见 Delbae 和 Schachermayer ( 2004 ) 的 著作 。Hilpisch ( 2015 ) 
著作 的 第 4 章 中 对 此 也 有 简短 的 介绍 ， 特 别 是 离散 时 间 的 版 本 。 一 一 原 注 
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( Martingale ) 测度 一 一 也 就 是 从 折 现 后 风险 因素 〈 随 机 过 程 ) 中 消去 漂移 的 概率 测度 。 
换 名 话说， 在 团 测 度 下 ， 所 有 风险 因素 随 无 风险 短期 利率 漂移 一 一 而 不 随 包含 某 种 无 
风险 短期 利率 之 上 的 风险 溢价 的 任何 其 他 市 场 利 率 漂移 。 


17.1.1 简单 示例 

考虑 只 有 今天 和 明天 两 个 交易 日 的 一 个 简单 经 济 环境 , 其 中 包含 一 种 高 风险 资产 ( 某 种 股 
票 ) 和 一 种 无 风险 资产 (债券 ) 今天 的 债券 价格 为 10 美元 ， 明 天 清偿 价值 为 10 美元 (0 
利率 )。 股 票 今天 价格 为 10 美元 ， 明 日 售 出 价格 为 20 美元 和 0 美元 的 概率 分 别 为 60% 和 
40%。 债券 的 无 风险 收益 为 0。 股 票 的 预期 收益 率 为 
偿 股票 风险 特性 的 风险 溢价 。 

现在 考虑 行 权 价 为 15 美元 的 看 涨 期 权 。 这 种 有 60% 的 概率 取得 5 美元 收益 ,在 其 他 情 
况 下 收益 为 0 的 未 定 权益 ， 其 公允 价值 是 多 大 呢 ? 例如， 我 们 可 以 取得 期 望 值 ， 并 将 
结果 值 折 现 ( 这 里 使 用 的 是 0 利率 )、 这 种 方法 得 到 的 价值 是 0.6 x 5 = 3 美元 ， 因 为 在 
股票 价格 上 升 至 20 美元 时 期 权 可 以 获得 5 美元 的 收益 ， 其 他 情况 下 收益 为 0。 


但 是 ， 还 有 另 一 种 方 法 已 经 成 功 地 应 用 到 期 权 定价 问题 上 ， 问 题 为 通过 可 交易 证 券 的 
组 合 来 复制 期 权 收 益 。 这 很 容易 验证 ， 购 买 0.25 份 股票 就 可 以 完全 复制 期 权 的 收益 
(在 60% 的 情况 下 , 我 们 的 收益 为 0.25 x 20 = $ 美元 ) 。 四 分 之 一 的 股票 成 本 仅 为 2.5 美 
元 而 非 3 美元 ， 在 现实 世界 概率 测度 下 的 预期 会 过 高 估计 期 权 的 价值 。 

为 什么 会 出 现 这 种 情况 ?现实 世界 的 测度 隐 含 着 20% 的 股票 风险 溢价 ， 是 因为 股票 中 
隐 含 的 风险 (盈利 100% 或 者 损失 100%) “确实 ”无 法 依靠 多 样 化 或 者 对 冲 来 消除 。 另 
一 方面 ， 有 某 种 投资 组 合 可 以 没有 任何 风险 地 复制 期 权 的 收益 。 这 也 意味 着 , 卖 出 这 
种 期 权 可 以 完全 对 冲 任何 风险 !。 这 种 由 期 权 和 对 冲 头 寸 组 成 的 完全 对 冲 投 次 组合 必 
须 得 到 等 于 无 风险 利率 的 收益 ， 以 避免 套利 机 会 ( 即 “ 空 手套 白 狼 "， 且 概率 为 正 数 
的 机 会 ) 

我 们 能 否 不 通过 预期 估计 看 涨 期 权 的 价值 ?是 的 ， 可 以 做 到 。 我 们 只 需要 改变 概率 ， 
使 风险 资产 (股票 ) 随 无 风险 利率 (0) 漂移 即 可 。 很 显然 ， 为 两 种 情形 同样 设 定 50% 
A CB) 测度 可 以 实现 这 一 点 计算 式 为 一 “ex -1=0。 现 在 ,在 新 的 软 测度 
下 计算 期 权 收益 ， 可 以 得 到 正确 的 ( 无 套利 ) 公允 价值 : 05x5+ 0.5x0= 2.5 美元 。 


17.1.2 一 般 结果 
上 述 方法 的 迷人 之 处 在 于 ， 它 甚至 可 以 用 于 非常 复杂 的 经 济 环境 ， 例 如 连续 时 间 模型 




















1= 0.2 。 这 就 是 补 





























































































































1 这 种 策略 包括 以 2.5 美元 购 入 期 权 , 以 2.5 美元 购买 0.25 股 股票 。 这 种 组 合 不 管 简单 经 济 中 出 现 什 
么 情形 ， 其 收益 均 为 0。 原 注 
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(考虑 连续 的 时 间 点 )、 大 量 风险 资产 、 复 杂 的 衍生 品 收益 等 。 
因此 ， 我 们 考虑 离散 时 间 中 的 一 般 市 场 模型 。 
离散 时 间 中 的 一 般 市 场 模型 jy 是 以 下 元 素 的 集合 : 
。 有 限 状 态 空间 02; 
。 DEF; 
。 在 2 (2) 上 定义 的 严格 正 概率 测度 P; 
e 终止 日 期 TEN，7Tx< co; 
o K+l 个 严格 正 向 证 券 价格 过 程 的 集合 5S = iS on :ke{0,.…,K}}, 
我 们 将 模型 写作 j={ (2, PD, F, P), T, S}o 
根据 上 述 一 般 市 场 模型 ， 我 们 可 以 这 样 描述 资产 定价 基本 定理 。 
考虑 一 般 市 场 模 型 jy ， 根 据 资产 定价 基本 定理 ， 下 面 3 个 陈述 等 价 : 
。 ”市场 模型 j 中 没有 套利 机 会 ; 
。 也 等 价 蒜 测度 集合 0 不 为 空 ; 
。 一致 线性 定价 系统 集合 P 不 为 空 。 
对 于 未 定 权 益 ( 期 权 、 衍 生 品 、 期 货 、 远 期 、 掉 期 等 ) 的 估 值 与 定价 ， 该 定理 的 重要 
性 可 以 用 如 下 的 推论 阐述 : 
如 果 市 场 模型 /是 无 套利 的 ， 则 对 任何 可 获得 (可 复制 ) 的 未 定 权 益 ( 期权、 
衍生 品 等 ) Vy 存在 一 个 相关 的 唯一 价格 Vo, 满足 VO eQ:V =E} (eV), 其 
中 ee 是 固定 短期 利率 + 对 应 的 风险 中 立 折 现 因 子 。 
这 一 结果 说 明了 该 定理 的 重要 性 ， 并 说 明了 我 们 上 面 介绍 的 简单 推论 适用 于 一 般 市 场 模 型 。 
由 于 蒜 测 度 的 作用 ， 这 种 估 值 方法 也 常常 被 称 作 款 方 法 ， 或 者 ， 因 为 款 测 度 下 所 有 风 
险 资产 都 随 无 风险 利率 漂移 而 被 称 作 风险 中 立 估 值 方法 。 对 于 我 们 的 目的 来 说 ， 第 二 
个 术语 可 能 更 好 ， 因 为 在 数值 应 用 中 ， 我 们 “简单 ”地 让 风险 因素 ( 随机 过 程 ) 根据 
风险 中 立 短期 利率 漂移 。 对 于 我 们 的 应 用 ， 没 有 必要 处 理 概率 测度 。 但 是 ， 这 些 测度 
从 理论 上 证 明了 我 们 所 应 用 的 核心 理论 结果 ， 以 及 实施 的 技术 方法 。 
最 后 ， 考 虑 一 般 市 场 模 型 中 的 市 场 完全 性 : 


WKH 4 是 无 套利 的 ， 且 每 种 未 定 权 益 ( 期权 、 衍 生 品 等 ) 都 可 获得 (可 
复制 )， 则 称 它 是 完全 的 。 






















































































1 概率 论 概念 参见 Wiliams (1991) 一 一 原 注 
2 参见 Delbaen 和 Schachermayer ( 2004 )。 





原 注 





171 资产 定价 基本 定理 531 


假定 市 场 模型 4 是 无 套利 的 ， 当 且 仅 当 O 是 单 例 (Singleton， 即 存在 唯一 的 己 
等 价 蒜 测度 ) 时 称 该 市 场 是 完全 的 。 
本 节 完 成 了 对 后 续 小 节 所 需 的 技术 背景 的 讨论 。 对 这 些 概念 、 定 义 和 结 果 的 详细 阐述 
参考 Hilpisch ( 2015 ) 的 第 4 章 。 





17.2 ”风险 中 立 折 现 


很 明显 ， 风 险 中 立 折 现 是 风险 中 立 估 值 方法 的 核心 。 首 先 需要 开发 一 个 用 于 风险 中 立 
折 现 的 Python 类 。 但 在 此 之 前 ， 仔 细 地 观察 一 下 估 值 相关 日 期 的 建 模 和 处 理 很 有 必要 。 


17.2.1 日 期 建 模 与 处 理 
































折 现 的 必要 前 提 之 一 是 建立 日 














其 模型 ( 参见 附录 A )。 出 于 估 值 的 目的 ， 通 常 将 当日 和 





一 般 市 场 模型 最 后 日 期 7 之 间 的 一 段 时 期 分 为 离散 的 时 间 间 隔 。 这 些 时 间 间 隔 可 以 是 
同 构 的 (等 长 )， 也 可 以 是 异 构 的 〈 不 等 长 )。 佑 值 库 应 该 能 够 处 理 异 构 时 间 间 隔 的 一 























般 情 况 ， 因 为 更 简单 的 情况 会 


时 间 间 隔 为 一 天 。 这 意味 着 ， 





自动 包含 。 因 此 ， 我们 使 用 日 期 列表 ,假定 最 小 的 相关 
我 们 不 关心 日 间 事件 一 一 如 果 需 要 处 理 这 些 事件 ， 就 必 











须 建立 时 间 模 型 (除了 日 期 之 外 ) |. 


要 编辑 相关 日 期 列表 ， 基 本 上 可 以 采用 两 种 方法 : 构建 一 个 离散 的 日 期 列表 ( 例如 
Python 中 的 datetime 对 象 ) 或 者 年 分 数 (十进制 数字 ， 就 像 在 理论 工作 中 常常 做 的 





那样 )。 
首先 是 导入 : 








In [1]: import numpy as np 


import pandas as pd 


import datetime as dt 


In [2]: from pylab import mpl, plt 


plt.style.use 人 


"seaborn') 


mpl.rcParams['font.family'] = 'serif' 


smatplotlib inline 


In [3]: import sys 


sys.path.append('../dx') 


例如 ， 下 面 的 dates 和 fraction 定义 (大 致 ) 等 价 : 


In [4]: dates = [dt.datetime(2020, 1, 1), dt.datetime(2020, 7, 1), 
dt.datetime(2021, 1, 1)] 











1 添加 时 间 成 分 实际 上 很 简单 ， 但 是 为 了 易于 讲解 ， 在 这 里 不 这 么 做 。 一 一 原 注 
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In [5 (dates[1] - dates[0]).days / 365. 
Out [5 0.4986301369863014 
In [6 (dates[2] - dates[1]).days / 365. 
Out [6 0.5041095890410959 
In [7 fractions = [0.0, 0.5, 1.0] 
它们 只 是 大 致 等 价 ， 因 为 年 分 数 很 少 处 于 某 一 天 的 开始 (0 点 )。 你 只 需要 想 想 ， 将 一 


年 除 以 50 的 结果 就 明白 了 。 


有 时 候 ， 根 据 日 期 列表 得 出 年 分 数 
这 项 工作 。 














FE 


# 

# DX Package 

# 

# Frame -- Helper Function 

# 

# get_year_deltas.py 

# 

# Python for Finance, 2nd ed. 
# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 


def get year deltas (date list, 


VE), get_year_delatas () 函数 可 以 完成 


day_count=365.): 


'’'’ Return vector of floats with day deltas in year fractions. 


Initial value normalized to zero. 


Parameters 


date list: 


list or array 


collection of datetime objects 


day_count: float 


number of days for a year 


(to account for different conventions) 


delta list: 
year fractions 


array 


start 


date_list[0] 
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delta_list = [(date - start).days / day_count 
for date in date_list] 
return np.array(delta_list) 


这 个 函数 的 应 用 如 下 : 


In [8]: from get year deltas import get year deltas 


In [9]: get year deltas (dates) 
Out[9]: array([0. , 0.49863014, 1.00273973]) 


在 建立 短期 利率 模型 时 ， 这 个 函数 的 好 处 显而易见 。 


17.2.2 ”恒定 短期 利率 

我 们 将 焦点 放 在 短期 利率 折 现 的 最 简单 情况 一 一 也 就 是 短期 利率 一 直 保 持 不 变 的 情 
况 。 许 多 期 权 定 价 模型 ， 如 Black-Scholes-Merton ( 1973 ), Merton (1976 ) 或 Cox-Ross- 
Rubinstein (1979 ) 都 做 出 这 个 假设 。 我 们 假定 连续 折 现 ， 因 为 是 期 权 定 价 应 用 中 常见 
的 假设 。 在 这 种 情况 下 ， 在 给 定 未 来 日 期 :和 固定 短期 利率 r 下, 今天 的 一 般 折 现 因子 可 
以 由 Du(D =e "得 出 。 当 然 ， 在 结束 日 有 一 个 特例 DT) =e". TERR, t 和 了 都 是 年 分 数 。 


折 现 因子 也 可 以 解释 为 分 别 在 上 和 了 到 期 的 单位 零 息 债券 (ZCB ) 的 当日 价值 。 给 定 
两 个 日 期 :=s=0， 从 1 到 s 的 折 现 因子 可 以 由 公式 DO = DADs) = ee” = 


e” . e” =e OL Ht 2 
下 面 将 上 述 考虑 因素 转换 为 Python 代码 的 一 个 Python 类 ?: 


# 

# DX Library 

# 

# Frame -- Constant Short Rate Class 
# 

# constant_short_rate.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


from get_year_deltas import * 


















































1 _ 例如， 对 于 短期 期 权 的 定价 ， 这 个 假设 在 许多 情况 下 都 满足 。 一 一 原 注 

2 单位 零 息 债 券 在 到 期 时 偿付 一 个 货币 单位 ， 在 当日 和 到 期 日 之 间 没 有 利息 。 一 一 原 注 

3 Python 面向 对 象 开发 的 基本 知识 参见 第 13 章 。 在 本 章 和 本 节 的 余下 内 容 中 ， 我 们 从 标准 的 PEP8 
命名 约定 中 得 出 Python 类 名 。PEP 8 推荐 为 Python 类 名 使 用 “ 词 首 字 母 大 写 ” 或 者 “驼峰 式 大 小 
写 "。 在 “接口 已 经 记 入 文档 并 主要 作为 可 调用 对 象 的 情况 下 ”使 用 PEP 8 提 到 的 函数 命名 惯例 作 
为 有 效 的 替代 方案 。 一 一 原 注 
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class constant_short_rate(object): 
''' Class for constant short rate discounting. 


Attributes 


name: string 
name of the object 
short_rate: float (positive) 


constant rate for discounting 


Methods 


get_discount_factors: 
get discount factors given a list/array of datetime objects 


or year fractions 


def _ init__(self, name, short_rate): 
self.name = name 
self.short_rate = short rate 
if short rate < 0: 
raise ValueError('Short rate negative.') 
# this is debatable given recent market realities 





def get_discount_factors(self, date_list, dtobjects=True) : 
if dtobjects is True: 
dlist = get year deltas (date list) 

else: 





dlist = np.array (date list) 
dflist = np.exp(self.short_rate * np.sort (-dlist)) 
return np.array((date_list, dflist)).T 


dx.constant_short_rate 类 的 应 用 最 好 由 一 个 简单 、 具 体 的 例子 说 明 。 主 要 的 结 
果 是 一 个 二 维 ndarray 对 象 ， 它 包含 成 对 的 datetime 对 象 和 相关 折 现 因子 。 该 类 
(特别 是 对 象 csr ) 通常 也 能 处 理 年 分 数 : 


























In [10]: from constant short rate import constant short rate 
In [11]: csr = constant_short_rate('csr', 0.05) 
In [12]: csr.get_discount_factors (dates) 


Out[12]: array([[datetime.datetime(2020, 1, 1, 0, 0), 0.9510991280247174], 
[datetime.datetime(2020, 7, 1, 0, 0), 0.9753767163648953], 
[datetime.datetime(2021, 1, 1, 0, 0), 1.0]], dtype=object) 
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In [13]: deltas = get_year_deltas (dates) 
deltas 
Out [13]: array([0. , 0.49863014, 1.00273973]) 


In [14]: csr.get_discount_factors(deltas, dtobjects=False) 
Out [14]: array([[0. , 0.95109913], 

[0.49863014, 0.97537672], 

[1002739737 i; IJO 


这 个 类 负责 其 他 类 中 需要 的 所 有 折 现 运算 。 





17.3 ”市场 环境 


市 场 环境 “只 是 ”其 他 数据 和 Python 对 象 集合 的 一 个 名 称 。 但 是 ， 使 用 这 一 抽象 概念 
相当 方便 ， 因 为 它 简化 了 许多 操作 ， 而 且 考虑 到 了 循环 特征 的 一 致 性 建 模  。 市 场 环境 
主要 由 3 个 字典 组 成 ， 它 们 存储 以 下 类 型 的 数据 和 Python 对 象 。 


党 


例如 模型 参数 或 者 期 权 到 期 日 。 
ALR 
一 般 是 对 象 序列 ， 例 如 用 于 建立 ( 风险 ) 证 券 模 型 对 象 的 列表 对 象 。 
wy 
用 于 折 现 的 对 象 ; 例如 ，qx .constant_short_rate 类 的 实例 。 
下 面 是 dx.market_environment 类 的 代码 。 字 典 对 象 的 处 理 参见 第 3 章 。 


# 

# DX Package 

# 

# Frame -- Market Environment Class 
# 

# market_environment.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


























class market_environment (object): 


''' Class to model a market environment relevant for valuation. 








1 这 个 概念 的 相关 信息 参见 Fletcher 和 Gardner ( 2009 )， 他 们 大 量 使 用 了 市 场 环 境 。 一 一 原 注 
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Attributes 


name: string 
name of the market environment 
pricing_date: datetime object 


date of the market environment 


Methods 


add_constant: 

adds a constant (e.g. model parameter) 
get_constant: 

gets a constant 
add list: 

adds a list (e.g. underlyings) 
get_list: 

gets a list 
add_curve: 

adds a market curve (e.g. yield curve) 
get_curve: 

gets a market curve 
add_environment: 

adds and overwrites whole market environments 


with constants, lists, and curves 


def init__(self, name, pricing_date): 


self.name = nam 





self.pricing_date = pricing_date 


self.constants = {} 
self.lists = {} 
self.curves = {} 











def add_constant (self, key, constant): 
self.constants[key] = constant 
def get_constant (self, key): 
return self.constants [key] 
def add_list(self, key, list_object): 
self.lists[key] = list_object 
def get_list(self, key): 
return self.lists[key] 
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def add_curve(self, key, curve): 


self.curves[key] = curv 





def get_curve(self, key): 


return self.curves [key] 


def add_environment (self, env): 


# overwrites existing values, if they exist 
self.constants.update(env.constants) 
self.lists.update(env.lists) 
self.curves.update (env.curves) 


虽然 dx.market_environment 类 没有 什么 特殊 的 ， 但 是 一 个 简单 的 例子 就 可 以 说 


明 使 用 该 类 的 实例 有 多 么 方便 : 


In 





Out 





L5 





22 


23 


24 
24 


25 
25 





from market_environment import market_environment 


: me = market_environment ('me_gbm', dt.datetime(2020, 1, 1)) 


: me.add_constant('initial value', 36.) 


: me.add_constant ('volatility', 0.2) 


: me.add_constant('final date', dt.datetime(2020, 12, 31)) 





: me.add_constant ('currency', 'EUR") 


: me.add_constant ('frequency', 'M') 











: me.add_constant('paths', 10000) 


: me.add_curve('discount_curve', csr) 


: me.get_constant ('volatility') 


0.2 


: me.get_curve ('discount_curve').short_rate 


0.05 


以 上 的 例子 说 明了 对 这 个 相当 通用 的 “存储 ”类 的 基本 处 理 。 对 于 实用 的 应 用 程序 ， 首 
先 收集 市 场 数据 和 其 他 数据 以 及 Python 对 象 ， 然 后 实例 化 dx.market_environment 
对 象 ， 并 填 入 相关 数据 及 对 象 。 只 用 一 步 就 可 以 将 其 交付 给 需要 保存 在 对 应 
dx.market_environment 对 象 中 的 其 他 类 。 


这 种 面向 对 象 建 模 方法 的 重大 优势 之 一 是 ， 如 dx. constant_short_rate 类 的 实例 



































538 


AK 


5p 


17% (hEN 





al 
X 


可 以 存在 于 多 个 环境 中 。 一 旦 实例 被 更 新 ( 如 设置 新 的 固定 短期 利率 )， 包 含 这 个 特殊 
折 现 类 的 所 有 dx.market_environment 实例 都 将 被 自动 更 新 。 





灵活 性 

本 节 介 绍 的 市 场 环境 类 是 一 种 灵活 的 手段 ， 可 以 为 与 期 权 、 衍 生 品 及 
由 其 组 成 的 投资 组 合 定价 相关 的 数量 和 输入 数据 建 模 并 提供 存储 。 但 
Æ, 这 种 灵活 性 也 带 来 了 操作 风险 , 很 容易 在 实例 化 时 传递 无 意义 的 
数据 、 对 象 等 ， 实 例 化 也 许 能 够 捕捉 到 它们 ， 也 可 能 捕捉 不 到 。 在 生 
产 环境 中 ， 必 须 增加 一 些 检 查 ， 至 少 捕 捉 到 明显 错误 的 情况 。 
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本 章 为 构建 Python 库 、 通 过 蒙特 卡 洛 模拟 估算 期 权 和 其 他 衍生 品 价值 的 较 大 项 目 提供 
一 个 框架 。 本 章 介绍 资产 定价 基本 定理 ， 用 相当 简单 的 数值 化 示例 加 以 前 述 。 在 这 一 
点 上 ， 本 章 为 离散 时 间 的 一 般 市 场 模 型 提供 了 重要 成 果 。 
本 章 还 为 风险 中 立 折 现 开发 了 一 个 Python 类 ， 以 数值 形式 运用 了 资产 定价 基本 定理 的 
机 制 。 根 据 Python datetime 对 象 列表 或 者 表示 年 分 数 的 浮 点 对 象 ，dx.constant_ 
short_rate 类 的 实例 提供 对 应 的 折 现 因子 (单位 零 息 债券 的 现 值 )。 

本 章 的 最 后 介绍 了 相当 通用 的 dx.market_environment 类 , 该 类 集合 了 用 于 建 模 、 
模拟 、 估 值 和 其 他 目的 的 相关 数据 和 Python 对 象 。 


为 了 简化 未 来 的 导入 工作 ， 我 们 将 使 用 一 个 包装 器 模块 dx_frame .py: 
































DX Analytics Package 


Frame Functions & Classes 


dx_frame.py 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Se OS Se Se SR SR SR SR Sk Sk 


import datetime as dt 


from get_year_deltas import get_year_deltas 
from constant_short_rate import constant_short_rate 


from market_environment import market_environment 
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下 面 的 一 条 import 语句 可 以 仅 通过 一 步 使 所 有 框架 组 件 可 用 : 


import dx frame 


对 于 Python 库 和 模块 套件 ， 还 有 一 个 选择 是 将 所 有 相关 Python 模块 保存 在 一 个 CF ) 
目录 中 ， 并 在 该 目录 中 放 入 一 个 特殊 的 init _.py 文件 进行 所 有 导入 工作 。 例 如 ， 
将 所 有 模块 保存 在 dx 子 目录 下 ， 例 15-5 中 提供 的 文件 就 可 以 完成 时 入。 不 过 ， 要 注 
个 特殊 文件 的 命名 约定 。 
# 


# DX Package 
# packaging file 


K 























# init__.py 
# 


import datetime as dt 


from get_year_deltas import get_year_deltas 
from constant_short_rate import constant_short_rate 


from market_environment import market_environment 


在 这 种 情况 下 ， 只 要 使 用 目录 名 就 可 以 一 次 完成 所 有 导入 : 


from dx import * 


还 可 以 使 用 如 下 方法 : 


import dx 








17.5 ”延伸 阅读 


对 于 本 章 介绍 的 主题 ， 下 面 是 一 些 有 用 的 图 书 资源 : 
e Bittman, James (2009). Trading Options as a Professional. New York: McGraw Hill. 




















e Delbaen, Freddy, and Walter Schachermayer (2004). The Mathematics of Arbitrage. 
Berlin, Heidelberg: Springer-Verlag. 


e Fletcher, Shayne, and Christopher Gardner (2009). Financial Modelling in Python. 
Chichester, England: Wiley Finance. 


e Hilpisch, Yves (2015). Derivatives Analytics with Python. Chichester, England: Wiley Finance. 
e Williams, David (1991). Probability with Martingales. Cambridge, England: Cambridge 


University Press. 


定义 本 章 中 引用 模型 的 原创 研究 论文 ， 参 考 后 续 章 的 “延伸 阅读 ”部 分 。 
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科学 的 目的 不 是 分 析 或 者 描述 ， 而 是 制作 这 个 世界 的 实用 模型 。 





第 12 章 介绍 了 使 用 Python 和 NumPy 实现 随机 过 程 蒙 特 卡 洛 模拟 的 一 些 细节 。 本章 应 用 
前 面 介绍 的 基本 技术 实现 模拟 类 ， 并 将 其 作为 DX 库 的 核心 组 件 。 我 们 将 注意 力 限 制 
在 3 个 广泛 使 用 的 随机 过 程 上 。 本 章 包含 如 下 内 容 : 
本 节 开 发 一 个 函数 ， 用 方差 缩减 技术 生成 标准 正 态 分 布 随机 数 。， 
th FEE 
本 节 开 发 一 个 通用 模拟 类 ， 其 他 特定 模拟 类 将 从 该 类 继承 基本 属性 与 方法 。 
JUITA BJ TË Zh 
本 节 介 绍 几何 布朗 运动 , 它 是 由 Black 和 Scholes (1973 ) 的 开创 性 工作 引入 期 权 定价 文 
献 的。 几何 布朗 运动 在 本 书 中 被 多 次 使 用 ,尽管 有 一 些 明显 的 不 足 之 处 , 而 且 这 些 不 足 
在 金融 现实 中 也 得 到 了 越 来 越 多 的 证 实 ， 但 它 仍 是 期 权 和 衍生 品 估 值 的 一 个 基准 过 程 。 
SHI D HH 
跳跃 扩散 由 Merton (1976) 引入 金融 ， 它 在 几何 布朗 运动 (GBM ) 上 增加 了 对 数 
分 布 跳跃 成 分 ; 这 使 我 们 可 以 考虑 更 多 情况 ， 例 如 短期 价 外 ( OTM ) 期 权 的 定价 
往往 需要 考虑 大 幅 暴 涨 的 可 能 性 。 换言之 , 以 GBM 作为 金融 模型 往往 无 法 很 好 地 
解释 这 种 OTM 期 权 的 市 场 价值 ， 而 跳跃 扩散 可 以 做 到 。 





































































































1 我 们 知道 ， 文 中 所 说 的 “随机 ” 数 通常 只 是 “ 伪 随 机 数 "。 一 一 原 注 
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平方 根 扩散 在 金融 学 中 的 流行 原因 是 Cox Ingersoll 和 Ross (1985) 的 努力 , 它 被 
用 于 建立 利率 和 波动 率 等 均值 回归 数量 的 模型 。 除 了 均值 回归 之 外 ， 平方 根 扩散 
过 程 总 是 正 向 的 ， 这 通常 是 理想 特性 。 



































本 章 介 绍 的 模型 模拟 的 进一步 细节 参见 Hilpisch ( 2015 )， 这 本 书 还 特别 包含 了 一 个 基 
于 Merton 跳跃 扩散 (1976 ) 的 完整 案例 研究 。 





18.1 随机 数 生 成 


随机 数 生 成 是 蒙特 卡 洛 模拟 的 核心 任务 之 一 '。 第 12 章 说 明了 如 何 使 用 Python 和 
numpy . random 等 库 生 成 不 同 分 布 的 随机 数 。 对 于 我 们 手 上 的 项 目 ， 标 准 正 态 分 布 随 
机 数 尤 为 重要 。 因 此 ， 创 建 一 个 方便 的 函数 来 生成 这 种 特殊 类 型 的 随机 数 是 值得 的 ， 

函数 如 下 面 定义 的 sn_random_numbers (): 











# 

# DX Package 

# 

# Frame -- Random Number Generation 
# 

# sn_random_numbers.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 


def sn random numbers (shape, antithetic=True, moment_matching=True, 
fixed _seed=False): 
''' Returns an ndarray object of shape shape with (pseudo) random numbers 
that are standard normally distributed. 


Parameters 


shape: tuple (o, n, m) 

generation of array with shape (o, n, m) 
antithetic: Boolean 

generation of antithetic variates 
moment_matching: Boolean 

matching of first and second moments 





1 随机 数 和 随机 变量 生成 的 相关 信息 参见 Glasserman ( 2004 ) 第 2 章 。 原 注 
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fixed_seed: Boolean 
flag to fix the seed 


Results 


ran: (or n, m) array of (pseudo) random numbers 
Tr 
if fixed_seed: 
np.random.seed (1000) 
if antithetic: 


ran = np.random.standard_normal ( 
(shape[0], shape[1], shape[2] // 2)) 
ran = np.concatenate((ran, -ran), axis=2) 
else: 


ran = np.random.standard_normal (shape) 


if moment_matching: 


ran = ran - np.mean (ran) 
ran = ran / np.std(ran) 
if shape[0] == 


return ran[0] 
else: 


return ran 


KARPETARA, BUS BR Ee, ZEA 12 章 中 也 有 介绍 。 
sn_random_numbers () PRAHA PAE fai A: 








In [26]: from sn_random_numbers import * 


In [27]: snrn = sn_random_numbers((2, 2, 2), antithetic=False, 
moment_matching=False, fixed_seed=True) 


snrn 

Out [27]: array([[[-0.8044583 , 0.32093155], 
[-0.02548288, 0.64432383]], 
[[-0.30079667, 0.38947455], 
[-0.1074373 , -0.47998308]]]) 

In [28]: round(snrn.mean(), 6) 

Out [28]: -0.045429 

In [29]: round(snrn.std(), 6) 


Out [29]: 0.451876 








In [30]: snrn = sn random numbers ((2, 2, 2), antithetic=False, 























1 _ Glasserman(2004) 的 第 4 章 提供 了 不 同方 差 缩 减 技术 的 概述 和 理论 细节 。 





原 注 
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moment_matching=True, fixed_seed=True) 

snrn 

Out [30]: array([[[-1.67972865, 0.81075283], 
[ 0.04413963, 1.52641815]], 


[[-0.56512826, 0.96243813], 
[-0.13722505,-0.96166678]]]) 





In [31]: round(snrn.mean(), 6) 
Out [31]: -0.0 


In [32]: round(snrn.std(), 6) 
Out [32]: 1.0 


这 个 函数 将 成 为 后 面 的 模拟 类 中 的 “主力 干将 ”。 


18.2 通用 模拟 类 

面向 对 象 建 模 (正如 第 6 章 中 的 介绍 ) 允许 属性 和 方法 的 继承 。 这 是 我 们 在 构建 模拟 
类 时 想 要 利用 的 : 从 一 个 通用 模拟 类 开始 ， 该 类 包含 所 有 其 他 模拟 类 共享 的 属性 和 方 
， 然 后 可 以 将 焦点 放 在 被 模拟 随机 过 程 的 特定 元 素 相 关 的 其 他 类 上 。 通 过 提供 以 下 3 
嚼 性 可 实例 化 任何 模拟 类 的 对 象 。 

name 

用 作 模 型 模拟 对 象 名 称 的 字符 串 对 象 。 


mar_env 



































> i 








dx.market_environment 类 的 一 个 实例 。 
Corr 
表示 对 象 是否 相 关 的 一 个 标志 布尔 型 )。 
这 再 次 说 明了 市 场 环境 的 作用 : 一 次 性 提供 模拟 和 估 值 所 需 的 所 有 数据 和 对 象 。 通 用 
类 的 方法 如 下 。 
generate_time_grid() 
这 个 方法 生成 模拟 所 用 的 相关 日 期 的 “时 间 网 格 ”。 此 任务 对 于 每 个 模拟 类 都 相同 。 
get_instrument_values () 
每 个 模拟 类 都 必须 返回 包含 模拟 金融 工具 价值 的 ndarray 对 象 (例如 模拟 的 股票 
价格 、 商 品 价格 、 波 动 率 )。 
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下 面 是 通用 模型 模拟 类 的 代码 。 其 中 的 方法 利用 了 模型 定制 类 提供 的 其 他 方法 ， 如 
self.generate_paths() 。 在 我 们 对 专用 、 非 通用 模拟 类 有 全 面 的 认识 之 后 ， 这 方 
面 的 细 方 就 会 变 得 很 清晰 。 








DX Package 


Simulation Class -- Base Class 


simulation_class.py 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Se OS SR Se SR SR SR SR SR Sk 


import numpy as np 
import pandas as pd 


class simulation_class (object): 
''' Providing base methods for simulation classes. 


Attributes 


name: str 

name of the object 
mar env: instance of market_environment 

market environment data for simulation 
corr: bool 

True if correlated with other model object 


Methods 


generate time grid: 
returns time grid for simulation 
get_instrument_values: 


returns the current instrument values (array) 


def _ init__(self, name, mar_env, corr): 
self.name = name 
self.pricing_date = mar_env.pricing_date 
self.initial_value = mar_env.get_constant ('initial_value') 
self.volatility = mar_env.get_constant ('volatility') 
self.final_date = mar_env.get_constant ('final date') 


self.currency = mar_env.get_constant ('currency') 
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self.frequency = mar_env.get_constant ('frequency') 
self.paths = mar_env.get_constant ('paths') 
self.discount_curve = mar_env.get_curve('discount_curve') 
try: 

# if time_grid in mar_env take that object 

# (for portfolio valuation) 


self.time_grid = mar_env.get_list ('time_grid"') 








except: 
self.time_grid = None 
Cry? 
# if there are special dates, then add these 
self.special_dates = mar_env.get_list ('special_dates") 
except: 
self.special_dates = [] 


self.instrument_values = None 
self.correlated = corr 
if corr is True: 
# only needed in a portfolio context when 
# risk factors are correlated 
self.cholesky_matrix = mar_env.get_list ('cholesky_matrix') 
self.rn_set = mar_env.get_list('rn_set') [self.name] 


self.random_numbers = mar_env.get_list ('random_numbers') 


def generate_time_grid(self): 
start = self.pricing_date 
end = self.final date 
# pandas date_range function 
# freq = e.g. 'B' for Business Day, 
# 'W' for Weekly, 'M' for Monthly 
time_grid = pd.date_range(start=start, end=end, 
freq=self.frequency) .to_pydatetime () 
time_grid = list (time_grid) 
# enhance time_grid by start, end, and special_dates 
if start not in time_grid: 
time_grid.insert(0, start) 
# insert start date if not in list 
if end not in time_grid: 
time_grid. append (end) 
# insert end date if not in list 
if len(self.special_dates) > 0: 
# add all special dates 
time_grid.extend(self.special_ dates) 
# delete duplicates 
time grid = list (set (time_grid) ) 
# sort list 
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time_grid.sort () 


self.time_grid = np.array (time grid) 


def get_instrument_values (self, 
if self.instrument_va 


fixed _seed=True): 


lues is None: 


# only initiate simulation if there are no instrument values 


self.genera 
elif fixed_seed is Fal 


se: 


te paths (fixed_seed=fixed_seed, day_count=365.) 


# also initiate resimulation when fixed seed is False 


self.genera 


return self.instrumen 
THAIS ET BA PARTI init P, 该 方法 在 实例 化 时 被 调用 。 为 了 保持 代 
码 的 简洁 ， 我 们 不 实施 任何 完整 性 检查 。 例 如 ， 不 管内 容 是 否 真 的 是 折 现 类 的 一 个 实 
例 , 下 面 的 代码 行 都 被 认为 是 “成 功 ”, 因此 , 在 编译 和 将 dx .market_environment 
对 象 传递 给 任何 模拟 类 时 应 该 相当 小 心 : 


self.discount_curve = mar_env.get_curve('discount_curve') 


K 18-1 展示 了 通用 和 其 他 所 有 模拟 类 的 dx.market_environment 对 象 必须 包含 的 



































t values 





te paths (fixed seed=fixed seed, day count=365.) 








































































































所 有 组 成 部 分 。 
表 18-1 所 有 模拟 类 的 市 场 环境 元 素 
元 素 类 型 强制 tek 
initial_value 常量 ke pricing_date (定价 日 ) 时 的 过 程 初 始 值 
volatility 常量 是 过 程 的 波动 性 系数 
final_date 常量 是 模拟 范围 
currency 常量 是 金融 实体 的 货 
frequency 常量 是 日 期 频率 ， 和 pandas freq 参数 相同 
paths 常量 是 模拟 路 径 数 量 
discount_curve 曲线 是 dx.constant_short_rate 实例 
time_grid 列表 a 相关 日 期 的 时 间 网 格 〈 在 投资 组 合 背 景 下 ) 
random_numbers 列表 T 随机 数 数组 (用 于 相关 对 象 ) 
cholesky_matrix 列表 否 Cholesky 和 矩阵 ( 用 于 相关 对 象 ) 
rn_set 列表 T 包含 指向 相关 随机 数值 指针 的 字典 对 象 














与 模型 模拟 对 象 关联 有 关 的 所 有 元 素 都 将 在 后 续 的 章节 中 解释 。 在 本 章 中 ， 我 们 将 重 
点 放 在 单一 、 无 关联 过 程 的 模拟 上 。 类似 地 , 传递 time_grid 的 选项 只 在 投资 组 合 背 
景 下 适用 ， 这 也 将 在 后 面 解释 。 
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18.3 几何 布朗 运动 


几何 布朗 运动 是 公式 18-1 所 描述 的 随机 过 程 (参见 第 12 章 的 公式 12-2， 特 别 是 参数 和 
变量 的 含义 )。 过 程 的 漂移 已 经 被 设置 为 无 风险 固定 短期 利率 r+， 这 意味 着 我 们 在 等 价 
WUT RE RIVE (参见 第 17 章 )。 
公式 18-1 ”几何 布朗 运动 的 随机 微分 方程 

dS=rSdt+ oS,dZ, 
公式 18-2 提供 了 上 述 微分 方程 用 于 模拟 目的 的 欧 拉 离 散 化 格式 (更 多 细节 参见 第 12 
章 的 公式 12-3 )。 总 体 框架 是 离散 时 间 市 场 模型 ( 例如 第 17 章 中 的 一 般 市 场 模 型 we )， 
使 用 有 限 相 关 日 期 集合 Otih To 


公式 18-2 ”模拟 几何 布朗 运动 的 微分 方程 


Sioa E S, ex (52? Js =) FONE ah, z] 


O56 <t.4 ST 


m 





























18.3.1 模拟 类 
以 下 是 GBM 模型 的 一 个 专用 类 : 


# 

# DX Package 

# 

# Simulation Class -- Geometric Brownian Motion 
# 

# geometric brownian _ motion.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 


from sn_random numbers import sn_random_numbers 


from simulation_class import simulation_class 


class geometric_brownian_motion(simulation_class): 
''' Class to generate simulated paths based on 
the Black-Scholes-—Merton geometric Brownian motion model. 
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Attributes 


name: string 
name of the object 
mar env: instance of market_environment 
market environment data for simulation 
corr: Boolean 


True if correlated with other model simulation object 


Methods 


update: 
updates parameters 
generate _ paths: 
returns Monte Carlo paths given the market environment 


def __init__(self, name, mar_env, corr=False): 


super (geometric_brownian_motion, self).__init__ (name, mar_env, corr) 


def update(self, initial_value=None, volatility=None, final_date=None) : 
if initial_value is not None: 
self.initial value = initial value 
if volatility is not None: 
self.volatility = volatility 
if final_date is not None: 
self.final_ date = final date 


self.instrument_values = None 


def generate paths (self, fixed_seed=False, day_count=365.): 
if self.time_grid is None: 
# method from generic simulation class 
self.generate_ time_grid() 
# number of dates for time grid 
M = len(self.time_grid) 
# number of paths 
I = self.paths 
# ndarray initialization for path simulation 
paths = np.zeros((M, I)) 
# initialize first date with initial value 
paths[0] = self.initial_value 
if not self.correlated: 
# if not correlated, generate random numbers 
rand = sn random numbers ((1, M, I), 


fixed_seed=fixed_seed) 
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else: 
# if correlated, use random number object as provided 
# in market environment 
rand = self.random_ numbers 
short rate = self.discount _curve.short rate 
# get short rate for drift of process 
for t in range(1, len(self.time_grid)): 
# select the right time slice from the relevant 
# random number set 
if not self.correlated: 
ran = rand[t 
else: 
ran = np.dot(self.cholesky matrix, rand[:, t, :]) 
ran = ran[self.rn_set] 
dt = (self.time_grid[t] - self.time_grid[t - 1]) .days / day count 
# difference between two dates as year fraction 
paths[t] = paths[t - 1] * np.exp((short_rate - 0.5 * 
self.volatility ** 2) * 





dt + 
self.volatility * np. 
sqrt (dt) * ran) 
# generate simulated values for the respective date 
self.instrument_values = paths 


在 这 个 特例 中 ，dx .market_environment 对 象 只 能 包含 表 18-1 中 所 示 的 数据 和 对 
象 ， 即 成 分 的 最 小 集合 。 

update () 方 法 的 作用 正如 其 名 : 它 可 以 更 新 选择 的 模型 重要 参数 。generate_paths () 
方法 更 复杂 一 些 ， 它 有 一 些 内 骨 注 秋 ， 可 以 清晰 地 说 明 非常 重要 的 特征 。 理 论 上 ， 考 
虑 不 同 模型 模拟 对 象 之 间 的 关联 会 给 该 方法 带 来 一 定 的 复杂 度 。 考 虑 对 象 之 间 的 关联 
的 目的 将 会 逐渐 变 得 清晰 ， 特 别 是 在 第 20 章 中 。 


18.3.2 用例 


下 面 的 交互 式 IPython 会 话说 明了 几何 布朗 运动 模拟 类 的 使 用 方法 。 首先, 我 们 必须 生 
成 包含 所 有 强制 性 元 素 的 dx.market_environment 对 象 : 


In [33]: from dx frame import * 











In [34]: me gbm = market_environment ('me_gbm', dt.datetime (2020, 1, 1)) 
In [35]: me_gbm.add_constant('initial_value', 36.) 
me_gbm.add_constant ('volatility', 0.2) 
me_gbm.add_constant ('final_date', dt.datetime(2020, 12, 31)) 
me_gbm.add_constant ('currency', 'EUR") 

( 


me gbm.add constant ('frequency', 'M') © 
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me_gbm.add_constant ('paths', 10000) 
In [36]: csr = constant _short_rate('csr', 0.06) 


In [37]: me_gbm.add_curve ('discount_curve', csr) 
@ 每 月 频 度 ， 默 认为 月 底 。 
其 次 ， 我 们 初始 化 一 个 模型 模拟 对 象 ; 


In [38]: from geometric_brownian_motion import geometric_brownian_motion 

















In [39]: gbm = geometric_brownian_motion('gbm', me_gbm) © 
In [40]: gbm.generate_time_grid() @ 


In [41]: gbm.time_grid ® 
Out [41]: array ([datetime.datetime (2020, 1, 








, 0, O 
datetime.datetime (2020, 1, 
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datetime.datetime (2020, 2, 
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datetime.datetime (2020, 3, 
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wes 


, Atype=object) 
In [42]: %time Paths 1 = gbm.get_instrument_values () 4) 
CPU times: user 21.3 ms, sys: 6.74 ms, total: 28.1 ms 


Wall time: 40.3 ms 


In [43]: paths_1l.round(3) @ 





Out [43]: array([[36. , 36. , 36. , ..., 36. , 36. , 36. ], 
37.403, 38.12 , 34.4 , ..., 36.252, 35.084, 39.668], 
39.962, 4233397 32405; deir. 34.836; °33.637,;- 3726595], 
ENEY 
40.534, 33.506, 23.497, ..., 37.851, 30.122, 30.446], 
42527 7. 3659955. 2168857 “in 360014). 30.907, 3 02]: 
43.811, 37.876, (241. p recy? 3'6%:203,- (286138; 29:.:038'])]) 


In [44]: gbm.update(volatility=0.5) © 


In [45]: %time paths 2 = gbm.get_instrument_values() © 
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CPU times: user 27.8 ms, sys: 3.91 ms, total: 31.7 ms 
Wall time: 19.8 ms 


@ 实例 化 模拟 对 象 。 

@ 生成 时 间 网 格 。 

O 显示 时 间 网 格 ， 注 意 加 入 的 初始 日 期 。 

@ 按照 参数 模拟 路 径 。 

O 更 新 波动 率 参数 并 重复 模拟 。 

图 18-1 展示 了 两 组 不 同 参数 的 10 条 模拟 路 径 ， 很 容易 看 出 增 大 波动 率 参 数值 的 效果 : 


In [46]: plt.figure(figsize=(10, 6)) 








pl = plt.plot(gbm.time_grid, paths_1[:, :10], 'b') 
p2 = plt.plot(gbm.time_grid, paths_2[:, :10], 'r-.") 
11 = plt.legend([p1[0], p2[0]], 


['low volatility', ‘high volatility'], loc=2) 
plt.gca() .add_artist (11) 
1t.xticks (rotation=30); 





ke) 
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18-1 GBM 模拟 类 中 的 模拟 路 径 


模拟 的 向 量化 
第 12 章 中 已 经 说 明 ，NumPy 和 pandas 的 向 量化 方法 很 适合 编写 简洁 
且 高 性 能 的 模拟 代码 。 
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18.4 ”跳跃 扩散 


有 J 了 dx.geometric_brownian_motion 类 的 背景 知识 后 ， 实 现 Merton (1976 ) 描 
述 的 跳跃 扩散 模型 就 很 简单 了 。 跳 跃 扩散 的 随机 微分 方程 如 公式 18-3 所 示 (参见 第 12 章 中 
的 公式 12-8， 尤 其 是 参数 和 变量 的 含义 )。 
公式 18-3 Merton 跳跃 扩散 模型 的 随机 微分 方程 

dS, = (r - r,)S,dt + oS,dZ, +JSdN， 


公式 18-4 提供 了 用 于 模拟 目的 的 欧 拉 离散 化 格式 (更 详细 的 解释 参见 第 12 章 的 公 
式 12-9 )。 


公式 18-4 Merton 跳跃 扩散 模型 的 欧 拉 离 散 化 


1 = or 
Si = S, (eff T r 30 em 一 加) +O bansi Stn 中 (e” K “b> 


Ot, <tn ST 

















18.4.1 模拟 类 

下 面 是 dx . jump_diffusion 模拟 类 的 Python 代码 。 这 个 类 现在 所 包含 的 内 容 都 在 
意料 之 中 。 当 然 ， 模 型 不 同 ,但 是 设计 和 方法 本 质 上 相同 : 

DX Package 

Simulation Class -- Jump Diffusion 

jump_diffusion.py 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Me SR Sk SR SR SR SR Sk OSE 条 


import numpy as np 


from sn_random_numbers import sn_random_numbers 


from simulation_class import simulation_class 


class jump_diffusion(simulation_class): 
''' Class to generate simulated paths based on 
the Merton (1976) jump diffusion model. 





18.4 ”跳跃 扩散 553 


def 


def 


def 


Attributes 





name: str 

name of the object 
mar_env: instance of market_environment 

market environment data for simulation 
corr: bool 

True if correlated with other model object 


Methods 


update: 
updates parameters 
generate paths: 


returns Monte Carlo paths given the market environment 


__init__ (self, name, mar_env, corr=False): 


super (jump_diffusion, self).__init__(name, mar_env, corr) 


# additional parameters needed 
self.lamb = mar_env.get_constant ('lambda') 


self.mu = mar_env.get_constant ('mu') 





self.delt = mar_env.get_constant ('delta') 


update(self, initial_value=None, volatility=None, 


mu=None, delta=None, final date=None): 





if initial_value is not None: 
self.initial value = initial value 

if volatility is not None: 
self.volatility = volatility 

if lamb is not None: 





self.lamb = lamb 

if mu is not None: 
self.mu = mu 

if delta is not None: 
self.delt = delta 

if final_date is not None: 





self.final date = final date 
self.instrument_values = None 


lamb=None, 


generate paths (self, fixed_seed=False, day_count=365.): 


if self.time_grid is None: 
# method from generic simulation class 
self.generate_time_grid() 

# number of dates for time grid 
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M = len(self.time_grid) 
# number of paths 
I = self.paths 
# ndarray initialization for path simulation 
paths = np.zeros((M, I)) 
# initialize first date with initial value 
paths[0] = self.initial_value 
if self.correlated is False: 
# if not correlated, generate random numbers 
snl = sn_random_numbers((1, M, I), 
fixed _seed=fixed_seed) 
else: 
# if correlated, use random number object as provided 
# in market environment 


snl = self.random_ numbers 


# standard normally distributed pseudo-random numbers 
# for the jump component 
sn2 = sn_random_numbers((1, M, I), 
fixed _seed=fixed_seed) 
rj = self.lamb * (np.exp(self.mu + 0.5 * self.delt ** 2) - 1) 


short rate = self.discount_curve.short rate 
for t in range(1l, len(self.time_grid)): 
# select the right time slice from the relevant 
# random number set 
if self.correlated is False: 
ran = snl[t] 
else: 


# only with correlation in portfolio context 


ran = np.dot(self.cholesky_matrix, snl[:, t, :]) 
ran = ran[self.rn_set] 
dt = (self.time_grid[t] - self.time_grid[t - 1]).days / day_count 


# difference between two dates as year fraction 
poi = np.random.poisson(self.lamb * dt, I) 
# Poisson-distributed pseudo-random numbers for jump component 
paths[t] = paths[t - 1] * ( 
np.exp((short_rate - rj - 
0.5 * self.volatility ** 2) * dt + 
self.volatility * np.sqrt(dt) * ran) + 
(np.exp(self.mu + self.delt * sn2[t]) - 1) * poi) 
self.instrument_values = paths 


当然 , 因为 我 们 现在 处 理 的 是 不 同 的 模型 , 所 以 需要 dx.market_environment 对 象 中 的 
一 组 不 同 元 素 。 除 了 用 于 dx.geomet ric_brownian_motion 类 ( 见 表 18-1) 的 元 素 之 
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外 , 还 增加 了 表 18-2 中 的 3 种 元 素 ， 即 对 数 正 态 跳跃 成 分 的 参数 : lambda, mu Fil delta, 


表 18-2 jump_diffusion 类 的 特殊 市 场 环境 元 素 



































元 R 类 型 强 制 描 RK 
lambda 常量 是 跳跃 密度 〈 概率 ， 按 年 ) 
mu 常量 是 TKR AER 
delta 常量 是 跳跃 规模 的 标准 差 











由 于 跳跃 成 分 的 存在 , 所 以 为 了 生成 路 径 , 这 个 类 需要 更 多 随机 数 。 generate_paths () 
方法 的 内 购 注 释 强 调 了 这 些 额 外 的 随机 数 生成 的 两 个 位 置 。 泊 松 分 布 随 机 数 的 生成 


参见 第 12 章 。 


18.4.2 用例 


下 面 的 交互 式 会 话说 明 模 拟 类 dx.jump_qiffusion 的 使 用 方法 。 我 们 使 用 


GBM 对 象 定 义 的 dx.market_environment 对 象 : 




















In [47]: me jd = market_environment ('me jd', dt.datetime(2020, 1, 

In [48]: me_jd.add_constant ('lambda', 0.3) © 
me_jd.add_constant ('mu', -0.75) © 
me _jd.add constant ('delta', 0.1) © 

n [49]: me_jd.add_environment (me gbm) @ 

n [50]: from jump_diffusion import jump_diffusion 

n [51]: jd = jump_diffusion('jd', me_jd) 

n [52]: %time paths_3 = jd.get_instrument_values() © 
CPU times: user 28.6 ms, sys: 4.37 ms, total: 33 ms 
Wall time: 49.4 ms 

In [53]: jd.update(lamb=0.9) @ 

In [54]: %time paths 4 = jd.get_instrument_values() © 
CPU times: user 29.7 ms, sys: 3.58 ms, total: 33.3 ms 
Wall time: 66.7 ms 


O dx. jump_diffusion 对 象 的 3 个 附加 参数 。 它 们 特定 于 模拟 类 。 


@ 在 现 有 环境 上 添加 一 个 完整 的 环境 。 
© 用 基本 参数 模拟 路 径 。 





前 面 为 
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@ 增 大 扩散 密度 参数 。 
O 以 更 新 的 参数 模拟 路 径 。 


图 18-2 比较 分 别 来 自 高 密度 和 低 密 度 ( 跳跃 概率 ) 集合 的 模拟 路 径 。 在 图 18-2 中 可 以 看 
到 ， 低 密度 的 情况 下 跳跃 较 少 ， 而 高 密度 的 情况 下 有 多 处 跳跃 : 


In [55]: plt.figure(figsize=(10, 6)) 
pl = plt.plot(gbm.time_grid, paths_3[:, :10], 'b') 
p2 = plt.plot(gbm.time_grid, paths_4[:, :10], 'r-.") 
11 = plt.legend([p1[0], p2[0]], 
['low intensity', ‘high intensity'], loc=3) 
lt.gca() .add_artist (11) 
lt.xticks (rotation=30) ; 


yel 
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18-2 来 自 跳跃 扩散 模拟 类 的 模拟 路 径 


18.5 FAR BL 


我 们 要 模拟 的 第 三 种 随机 过 程 是 Cox Ingersoll 和 Ross (1985 ) 用 于 建立 随机 短期 利率 
模型 的 平方 根 扩散 。 公 式 18-5 展示 了 这 种 过 程 的 随机 微分 方程 (进一步 的 细节 参见 第 
12 章 的 公式 12-4 )。 


公式 18-5 平方根 扩散 的 随机 微分 方程 








dx, =K(O0—x)dt+oV%d2, 
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我 们 的 代码 使 用 公式 18-6 提供 的 离散 化 格式 (参见 第 12 章 的 公式 12-5， 以 及 公式 
12-6 中 的 精确 蔡 代 格式 )。 


公式 18-6 ”平方根 扩 散 的 欧 拉 离散 化 


~ ~ 之 十 lx+ | 
Krna = x, + KO Es x; Mtns z tn) +o Xs bn = bn Zi 





18.5.1 模拟 类 


下 面 是 第 三 个 (也 是 最 后 一 个 ) 模拟 类 dx. square_root_diffusion 的 Python 代码 。 
当然 , 除了 模型 和 离散 化 格式 不 同 之 外 ， 和 其 他 两 个 特殊 类 相 比 , 这 个 类 没有 什么 新 内 容 。 









































DX Package 


Simulation Class -- Square-Root Diffusion 


square_root_diffusion.py 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


Ss Fe HR RR RR HR HR 站 


import numpy as np 


from sn_random_numbers import sn_random_numbers 


from simulation_class import simulation_class 


class square_root_diffusion(simulation_class): 
''!’ Class to generate simulated paths based on 
the Cox-Ingersoll-Ross (1985) square-root diffusion model. 


Attributes 


name : string 
name of the object 
mar env : instance of market environment 
market environment data for simulation 
corr : Boolean 


True if correlated with other model object 


update : 
updates parameters 
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generate paths 


def 


def 


def 


returns Monte Carlo paths given the market environment 


__init__ (self, name, mar_env, corr=False): 

super (square_root_diffusion, self).__init__(name, mar_env, corr) 
# additional parameters needed 

self.kappa = mar_env.get_constant ('kappa') 

self.theta = mar_env.get_constant ('theta") 





update(self, initial_value=None, volatility=None, kappa=None, 
theta=None, final date=None): 
if initial_value is not None: 
self.initial value = initial value 
if volatility is not None: 
self.volatility = volatility 
if kappa is not None: 
self.kappa = kappa 
if theta is not None: 
self.theta = theta 
if final_date is not None: 





self.final_ date = final date 


self.instrument_values = None 


generate paths (self, fixed_seed=True, day_count=365.): 
if self.time_grid is None: 
self.generate_ time_grid() 


ll 


M len (self.time_grid) 
I = self.paths 
paths = np.zeros((M, I)) 


paths_ = np.zeros_like (paths) 
paths[0] = self.initial_value 
paths_[0] = self.initial_value 


if self.correlated is False: 
rand = sn random numbers ((1, M, I), 
fixed _seed=fixed_seed) 
else: 


rand = self.random_ numbers 


for t in range(1, len(self.time_grid)): 
dt = (self.time grid[t] - self.time_grid[t - 1]).days / day count 
if self.correlated is False: 
ran = rand[t] 
else: 
ran = np.dot(self.cholesky_matrix, rand[:, t, :]) 
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ran = ran[self.rn_set] 


# full truncation Euler discretization 
paths_[t] = (paths_[t - 1] + self.kappa * 
(self.theta - np.maximum(0, paths_[t - 1, :])) * dt + 
np.sqrt (np.maximum(0, paths_[t - 1, :])) * 
self.volatility * np.sqrt(dt) * ran) 
paths[t] = np.maximum(0, paths_[t]) 
self.instrument_values = paths 


表 18-3 列 出 了 这 个 类 特有 的 两 个 市 场 环境 元 素 。 








表 18-3 dx.square_root_diffusion 类 市 场 环境 的 特定 元 素 














元 素 类 型 强 制 描 述 
kappa 常量 是 均值 回归 因子 
theta 常量 是 过 程 长 期 均值 











18.5.2 用例 
一 个 相当 简短 的 用 例 就 能 说 明 模 拟 类 的 使 用 方法 。 和 往常 一 样 ， 我 们 需要 一 个 市 场 环 
境 ， 例 如 用 于 建立 波动 率 ( 指数) 过 程 模 型 的 环境 : 


In [56]: me srd = market environment ('me srd', dt.datetime(2020, 1, 1)) © 














In [57]: me srd.add constant ('initial value', .25) 
"voLlatility', 0.05) 
"final date', dt.datetime(2020, 12, 31)) 


'currency', 'EUR"') 


( 
me_srd.add_constant ( 
me_srd.add_constant ( 
me_srd.add_constant ( 
me_srd.add_constant ('frequency', 'W') 
('paths', 10000) 


me_srd.add_constant 


[In [58]: me_srd.add_constant ('kappa', 4.0) 





me_srd.add_constant('theta', 0.2) 


In [59]: me srd.add curve('discount_curve', constant short rate('r', 0.0)) @ 











[In [60]: from square_root_diffusion import square_root_diffusion 
In [61]: srd = square_root_diffusion('srd', me_srd) ® 
In [62]: srd paths = srd.get_instrument_values()[:, :10] @ 


@ dx.square_root_diffusion 对 象 的 附加 参数 。 
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@ discount_curve 对 象 在 默认 情况 下 是 必需 的 ， 但 在 这 一 模拟 中 不 需要 。 
© 实例 化 对 象 。 
@ 模拟 路 径 ， 并 选择 10。 


18-3 显示 ， 单 一 模拟 路 径 平均 回归 到 长 期 均值 theta ( 虚线 ， 假 定 为 0.2 )， 这 说 明了 
均值 回归 特性 : 


In [55]: plt.figure (figsize=(10, 6)) 


pl = plt.plot(gbm.time_grid, paths_3[:, :10], 'b') 
p2 = plt.plot(gbm.time_grid, paths_4[:, :10], 'r-.") 
11 = plt.legend([p1[0], p2[0]], 


['low intensity', ‘high intensity'], loc=3) 
plt.gca() .add_artist (11) 
plt.xticks (rotation=30) ; 
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18-3 来 自 平方 根 扩散 模拟 类 的 模拟 路 径 ( 虚线 为 长 期 均值 theta ) 


18.6 结语 


本 章 开发 了 我 们 感 兴趣 的 3 种 随机 过 程 ( 几何 布朗 运动 、 跳 路 扩散 和 平方 根 扩 散 ) 的 
模拟 所 需 的 所 有 工具 和 类 ， 还 介绍 了 一 个 可 以 方便 地 生成 标准 正 态 分 布 随 机 数 的 函数 ， 
然后 介绍 了 一 个 通用 模型 模拟 类 。 以 此 为 基础 ， 本 章 引 入 了 3 个 专用 模拟 类 并 提供 了 
这 些 类 的 用 例 。 
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为 了 简化 未 来 的 导入 ,我们 同样 可 以 使 用 一 个 包装 顺 模 块 dx_simulation.py: 


# 

# DX Package 

# 

# Simulation Functions & Classes 
# 

# dx simulation.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 





import pandas as pd 

from dx_frame import * 

from sn_random_numbers import sn_random_numbers 

from simulation_class import simulation_class 

from geometric_brownian_motion import geometric_brownian_motion 
from jump_diffusion import jump_diffusion 

from square_root_diffusion import square_root_diffusion 


和 第 一 个 包装 器 模块 ax_frame .py 一 样 ， 这 样 做 的 好 处 是 用 一 条 import 语句 就 可 以 
一 次 导入 所 有 模拟 组 件 : 


from dx simulation import * 


由 于 dx_simulation.py 还 导 人 来 自 dx_frame .py 的 所 有 组 件 ， 这 样 的 导入 实际 上 输 
出 了 目前 为 止 开发 的 所 有 功能 。 对 于 dx 目录 中 的 增强 版 _init__.py 文件 也 是 如 此 : 
# 


# DX Package 
# packaging file 























# init__.py 

# 

import numpy as np 
import pandas as pd 
import datetime as dt 


# frame 
from get_year_deltas import get_year_deltas 
from constant_short_rate import constant_short_rate 


from market_environment import market_environment 


# simulation 
from sn_random_numbers import sn_random_numbers 


from simulation_class import simulation_class 





562 第 18 章 金融 模型 的 模拟 


from geometric_brownian_motion import geometric_brownian_motion 
from jump_diffusion import jump_diffusion 
from square_root_diffusion import square_root_diffusion 


18.7 ”延伸 阅读 


下 面 是 本 章 介绍 的 主题 的 一 些 实用 参考 书 : 





Glasserman, Paul (2004). Monte Carlo Methods in Financial Engineering. New York: 
Springer. 


Hilpisch, Yves (2015): Derivatives Analytics with Python. Chichester, England: Wiley 


Finance. 


本 章 引 用 的 原创 论文 如 下 : 


Black, Fischer, and Myron Scholes (1973). “The Pricing of Options and Corporate 
Liabilities.” Journal of Political Economy, Vol. 81, No. 3, pp. 638-659. 


Cox, John, Jonathan Ingersoll, and Stephen Ross (1985). “A Theory of the Term 
Structure of Interest Rates.” Econometrica, Vol. 53, No. 2, pp. 385-407. 


Merton, Robert (1973). “Theory of Rational Option Pricing.” Bell Journal of 
Economics and Management Science, Vol. 4, pp. 141-183. 


Merton, Robert (1976). “Option Pricing When the Underlying Stock Returns Are 
Discontinuous.” Journal of Financial Economics, Vol. 3, No. 3, pp. 125-144. 














18.7 ”延伸 阅读 563 








第 19 章 


WUUUU 





衍生 品 是 一 个 巨大 、 复 杂 的 问题 。 


页 德 。 格 雷 格 


kj 








期 权 和 衍生 品 佑 值 很 入 以 来 都 属于 华尔街 “火箭 科学 家 ”( 拥有 物理 学 或 者 与 数学 相关 
的 类 似 高 要 求学 科 博 士 学 位 的 人 们 ) 的 领域 。 然 而 ， 通 过 蒙特 卡 洛 模拟 等 数值 方法 ， 
这 些 模型 的 应 用 通常 不 像 理 论 模型 本 身 那 么 复杂 。 

对 于 采用 欧式 行 权 方法 的 期 权 和 衍生 品 〈 即 只 可 能 在 茶 个 预先 确定 的 日 期 行 权 ) 来 说 ， 
上 述说 法 尤为 正确 。 对 于 采用 美式 行 权 方 法 的 期 权 和 衍生 品 来 说 则 稍微 复杂 一 些 ， 这 
种 行 权 可 以 在 预先 规定 的 一 段 时 间 内 进行 。 本 章 介绍 和 使 用 最 小 二 乘 蒙特 卡 洛 (LSM ) 
算法 ， 这 种 算法 已 经 成 为 基于 蒙特 卡 洛 模拟 的 美式 期 权 佑 值 中 的 基准 算法 。 

本 章 在 结构 上 类 似 于 第 18 章 ， 首 先 介绍 一 个 通用 估 值 类 ， 然 后 提供 两 个 专用 估 值 类 , 一 
个 用 于 欧式 行 权 ， 另 一 个 用 于 美式 行 权 。 通 用 估 值 类 包含 以 数值 形式 估算 重要 期 权 “ 和 希腊 
FEP (Delta 和 Vega) 的 方法 。 因 此 ， 估 值 类 不 仅 对 估 值 很 重要 ， 对 风险 管理 也 很 重要 。 


本 章 的 结构 如 下 。 
18 JA te aE 

本 节 介 绍 通用 估 值 类 ， 其 他 特殊 类 将 从 该 类 中 继承 。 
KAISER 

本 节 介 绍 的 是 欧式 行 权 方式 的 期 权 和 衍生 品 佑 值 类 。 
RATER 

本 市 介绍 的 是 美式 行 权 方式 的 期 权 和 衍生 品 估 值 类 。 
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191 通用 估 值 类 





与 通用 模拟 类 一 样 , 我们 仅 提 供 少数 几 个 输入 ( 本 例 是 4 个 ) 来 实例 化 一 个 估 值 类 对 象 。 


name 
表示 模型 模拟 对 象 名 称 的 字符 串 对 象 。 
underlying 
代表 标的 的 模拟 类 实例 。 


mar_env 














dx.market_environment 类 实例 。 
payoff_func 

包含 期 权 / 衍 生 品 收益 函数 的 Python 字符 串 。 
通用 类 有 以 下 3 个 方法 。 
update () 

这 个 方法 更 新 选择 的 估 值 参数 ( 属性 )。 
delta() 

这 个 方法 计算 期 权 / 衍 生 品 的 Delta 值 。 
vega () 

这 个 方法 计算 期 权 / 衍 生 品 的 Vega 值 。 





























有 了 前 面 儿童 中 学 习 到 的 DX 库 背 景 知 识 ， 下 面 介 绍 的 通用 估 值 类 几乎 不 言 自 明 ; 在 


合适 的 地 方 还 提供 了 内 藤 注 释 。 我 们 仍然 首先 提 
点 介绍 选择 的 主题 。 


# 

# DX Package 

# 

# Valuation -- Base Class 

# 

# valuation_class.py 

# 

# Python for Finance, 2nd ed. 
# (c) Dr. Yves J. Hilpisch 

# 





共 完 整 


的 类 ， 然 后 在 后 续 的 内 容 中 重 
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class valuation_class (object): 


''' Basic class for single-factor valuation. 


Attributes 


name: str 
name of the object 
underlying: instance of simulation class 
object modeling the single risk factor 
mar_env: instance of market_environment 
market environment data for valuation 
payoff_func: str 
derivatives payoff in Python syntax 
Example: 'np.maximum (maturity value - 100, 0)' 
where maturity value is the NumPy vector with 
respective values of the underlying 
Example: 'np.maximum(instrument_values - 100, 0)' 
where instrument_values is the NumPy matrix with 


values of the underlying over the whole time/path grid 


update: 

updates selected valuation parameters 
delta: 

returns the delta of the derivative 
vega: 


returns the vega of the derivative 


def init__(self, name, underlying, mar_env, payoff_func=''): 
self.name = name 


self.pricing_date = mar_env.pricing_date 


try: 

# strike is optional 

self.strike = mar_env.get_constant ('strike') 
except: 


pass 

self.maturity = mar_env.get_constant ('maturity') 

self.currency = mar_env.get_constant ('currency') 

# simulation parameters and discount curve from simulation object 
self.frequency = underlying. frequency 

self.paths = underlying.paths 


self.discount_curve = underlying.discount_curve 








self.payoff_func = payoff func 
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self.underlying = underlying 

# provide pricing date and maturity to underlying 

self.underlying.special dates.extend([self.pricing_ date, 
self.maturity]) 


def update(self, initial_value=None, volatility=None, 
strike=None, maturity=None) : 

if initial_value is not None: 
self.underlying.update (initial value=initial value) 

if volatility is not None: 
self.underlying.update (volatility=volatility) 

if strike is not None: 
self.strike = strike 

if maturity is not None: 





self.maturity = maturity 

# add new maturity date if not in time_grid 

if maturity not in self.underlying.time_grid: 
self.underlying.special_dates.append (maturity) 
self.underlying.instrument_values = None 


def delta(self, interval=None, accuracy=4): 
if interval is None: 
interval = self.underlying.initial value / 50. 
# forward-difference approximation 
# calculate left value for numerical delta 
value left = self.present_value (fixed_seed=True) 
# numerical underlying value for right value 
initial_del = self.underlying.initial_value + interval 
self.underlying.update (initial_value=initial_del) 
# calculate right value for numerical delta 
value_right = self.present_value (fixed_seed=True) 
# reset the initial_value of the simulation object 
self.underlying.update (initial_value=initial_del - interval) 





delta = (value_right - value_left) / interval 
# correct for potential numerical errors 
if delta < -1.0: 
return -1.0 
elif delta > 1.0: 
return 
else: 
return round(delta, accuracy) 


def vega(self, interval=0.01, accuracy=4): 
if interval < self.underlying.volatility / 50.: 
interval = self.underlying.volatility / 50. 
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# forward-difference approximation 
# calculate the left value for numerical vega 
value_left = self.present_value (fixed_seed=True) 





# numerical volatility value for right value 
vola_del = self.underlying.volatility + interval 
# update the simulation object 
self.underlying.update(volatility=vola_del) 

# calculate the right value for numerical vega 
value_right = self.present_value (fixed_seed=True) 
# reset volatility value of simulation object 





self.underlying.update(volatility=vola_del - interval) 
vega = (value_right - value_left) / interval 
return round(vega, accuracy) 


通用 类 dx.valuation_class 包含 的 主题 之 一 是 “希腊 字母 ”的 估算 。 这 是 我 们 应 
该 仔细 观察 的 。 为 此 ， 考 虑 一 个 代表 期 权 现 值 的 连续 可 微分 函数 V (So Co) WI 


Es Abo 5 OV(。 
Delta 值 定义 为 标的 当前 价值 5 的 一 阶 偏 微 分 ， 即 4 = = a 


假定 现在 我 们 从 蒙特 卡 洛 估 值 (参见 第 12 章 和 本 章 后 续 的 内 容 ) 中 得 到 一 个 期 权 价 值 
的 蒙特 卡 洛 估算 函数 V(5,,o,) 。 期 权 Delta 值 的 数值 逼近 由 公式 19-1 给 出 。 这 是 通用 
估 值 类 delta() 方 法 所 实现 的 功能 。 该 方法 假定 存在 present_value () 方法 ， 
present_value () 方 法 返回 给 定 某 组 参数 值 下 的 蒙特 卡 洛 估算 函数 。 
公式 19-1 期 权 Delta 值 的 数值 解 
7 VS +AS,00) -V S00) 
AS 
类 似 地 ,金融 工具 的 Vega 值 定义 为 在 当前 ( 即 期 ) 波动 率 oo 下 现 值 的 一 阶 偏 微分 ， 即 
6y(。 re 站 , £ 
5 .同样 假设 存在 期 权 价值 的 蒙特 卡 洛 估算 丽 数 , 公式 19-2 提供 了 Vega 的 数 
值 逼 近 公 式 。 这 是 dx.valuation_class 类 的 vega () 方 法 实现 的 功能 。 
公式 19-2 期权 Vega 值 的 数值 解 
_V(S0,00+Ao)—V(S,,00) 
Ao 
注意 , Delta 和 Vega 的 讨论 只 基于 有 一 个 可 微分 函数 或 者 期 权 现 值 的 蒙特 卡 洛 估算 也 
数 存在 的 情况 。 这 是 我 们 可 以 定义 方法 ， 以 数值 化 方式 估算 这 些 数量 ， 而 无 须 了 解 蒙 




















,AS>0 








V= 





y ,Ao >0 









































1 通过 蒙特 卡 洛 模拟 估算 “和 希腊 字母 ”的 细节 参见 Glassman(2004) 的 第 7 章 。 我们 在 此 只 使 用 前 向 差 
分 格式 , 因为 这 只 会 导致 一 次 额外 的 模拟 和 期 权重 新 估 值 。 例如 ， 中 心 差分 台 近 法 将 导致 两 次 期 权 
重 估 值 ， 从 而 造成 更 大 的 计算 负担 。 一 一 原 注 
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特 卡 洛 估算 函数 精确 定义 和 数值 实现 的 原因 。 


19.2 ”欧式 行 权 
我 们 要 专门 化 通用 佑 值 类 的 第 一 种 情况 是 欧式 行 权 。 为 此 ， 考 虑 生成 期 权 价值 蒙特 卡 
洛 估算 函数 的 简化 方法 ， 如 下 所 列 。 


。 ”进行 I 次 风险 中 立 测度 下 对 应 标的 风险 因子 S 的 模拟 ， 得 出 同样 多 的 期 权 T 到 期 
日 标的 物 模拟 价值 一 一 即 S, (i),i E {1, 2," me I} o 


。 ”计算 到 期 日 每 种 模拟 标的 物价 值 的 期 权 收益 hr h (S70), i € {1,2,…,1}。 



































。 ”得 出 期 权 现 值 的 蒙特 卡 洛 估算 函数 克 = er E GO) « 


19.2.1 {482 


下 面 的 代码 展示 了 根据 上 述 方法 实现 Present_value () 方 法 的 类 。 此 外 ， 该 类 还 包 
含 generate_payoff () 方 法 以 生成 模拟 路 径 和 给 定 路 径 的 期 权 收 益 。 这 这 是 蒙特 卡 洛 
估算 函数 的 基础 。 


# 

# DX Package 

# 

# Valuation -- European Exercise Class 
# 

# valuation_mcs_european.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 





from valuation_class import valuation_class 


class valuation_mcs_european (valuation_class): 
''' Class to value European options with arbitrary payoff 
by single-factor Monte Carlo simulation. 


Methods 


generate payoff: 
returns payoffs given the paths and the payoff function 
present_value: 
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def 


def 


returns present value (Monte Carlo estimator) 


generate payoff (self, fixed_seed=False): 


one 


Parameters 


fixed_seed: bool 
use same/fixed seed for valuation 


one 


try: 
# strike is optional 
strike = self.strike 
except: 
pass 


paths = self.underlying.get_instrument_values (fixed_seed=fixed_seed) 


time_grid = self.underlying.time_grid 





try: 
time_index = np.where(time_grid == self.maturity) [0] 
time_index = int (time index) 

except: 


print ('Maturity date not in time grid of underlying.') 


maturity_value = paths [time_index] 
# average value over whole path 


mean_value = np.mean(paths[:time_index], axis=1) 


# maximum value over whole path 


max_value = np.amax(paths[:time_index], axis=1) [-1] 


# minimum value over whole path 


min_value = np.amin(paths[:time_index], axis=1) [-1] 


bry: 
payoff = eval(self.payoff_func) 
return payoff 
except: 
print ('Error evaluating payoff function.') 


present_value(self, accuracy=6, fixed_seed=Fals 


, full=False): 





one 


Parameters 


accuracy: int 

number of decimals in returned result 
fixed_seed: bool 

use same/fixed seed for valuation 
full: bool 


return also full 1d array of present values 
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one 


cash_flow = self.generate_payoff (fixed_seed=fixed_seed) 
discount_factor = self.discount_curve.get_discount_factors ( 
(self.pricing_ date, self.maturity))[0, 1] 
result = discount_factor * np.sum(cash_flow) / len(cash_flow) 
if full: 
return round(result, accuracy), discount_factor * cash_flow 
else: 
return round(result, accuracy) 


generate_payoff () 方法 提供 了 一 些 特殊 的 对 象 用 于 期 权 收 益 的 定义 。 
e strike 是 期 权 的 行 权 价 。 

。 maturity_value 表示 期 权 到 期 日 标的 物 模拟 价值 。 

e mean_value 是 从 今天 到 到 期 日 整 条 路 径 上 标的 物 的 平均 价值 。 

e max_value 是 整 条 路 径 上 标的 物 的 最 大 价值 。 

。 min_value 是 整 条 路 径 上 标的 物 的 最 小 价值 。 

后 3 个 对 象 特别 考虑 了 具有 亚洲 式 ( 回顾 式 ) 特征 的 期 权 的 高 效 处 理 。 



























































欧式 行 权 的 期 权 及 衍生 品 估 值 方法 相当 灵活 ， 可 以 定义 任意 的 收益 函 
数 。 这 允许 我 们 建立 有 条 件 行 权 ( 例如 期 权 ) 和 无 条 件 行 权 ( 例如 远 
期 合约 ) 的 模型 , 也 可 以 加 入 其 他 风格 的 收益 因素 , 例如 回顾 式 特 征 。 





19.2.2 ”用 例 

估 值 类 dx.valuation_mcs_european 的 应 用 最 好 通过 一 个 特定 的 用 例 来 说 明 。 但 
是 ， 在 实例 化 估 值 之 前 ， 我 们 需要 一 个 模拟 对 象 一 一 用 于 估算 期 权 价值 的 标的 。 从 第 
18 章 起 ， 我 们 就 使 用 dx.gemetric_brownian_motion 类 建立 标的 物 模型 。 我 们 
还 使 用 对 应 用 例 的 示例 参数 : 


In [64]: me gbm = market_environment ('me_gbm', dt.datetime(2020, 1, 1)) 




















m 














‘initial value', 36.) 

'volatility', (0.2) 

"final date', dt.datetime(2020, 12, 31)) 
"currency', 'EUR"') 


In [65]: me_gbm.add_constant ( 
me_gbm.add_constant ( 
me_gbm.add_constant ( 
me_gbm.add_constant ( 
me_gbm.add_constant ('frequency', 'M') 

('paths', 10000) 


me_gbm.add_constant 
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In [66 
In [67 


In [68 


除了 模拟 对 


csr = constant _short_rate('csr', 0.06) 


: me_gbm.add_curve('discount_curve', csr) 


: gbm = geometric_brownian_motion('gbm', me_gbm) 


象 之 外 ， 我 们 需要 为 期 权 提供 一 个 市 场 环境 ， 其 中 必须 包含 至 少 一 个 

















maturity 和 一 个 currency。 我们 还 可 以 选择 提供 strike BR: 


In [69 





In [70 


: me call = market_environment ('me_call', me_gbm.pricing_date) 


: me_call.add_constant('strike', 40.) 


me_call.add_constant('maturity', dt.datetime(2020, 12, 31)) 
me_call.add_constant ('currency', 'EUR') 




















E 在 这 里 以 包含 Python 代码 的 一 个 字符 串 对 象形 式 提 供 ， 这 
些 代码 由 eval () 函数 进行 求 值 。 我 们 打算 定义 欧式 看 涨 期 权 ， 这 种 期 权 的 收益 为 
hr= max(Sr— K, a Sr 是 到 期 日 标的 价值 ，K 是 期 权 行 权 价 。 在 Python 和 NumPy 中 ， 
所 有 模拟 值 都 采用 向 量化 存储 ， 其 形式 如 下 : 


TALTID 























payoff_func = 'np.maximum(maturity_value - strike, 0)' 


现在 ， 将 所 有 成 分 组 合 起 来 ， 就 可 以 从 dx.valuation_mcs_european 类 实例 化 一 
个 对 象 。 有 了 这 个 佑 值 对 象 后 ， 所 有 感 兴趣 的 数量 都 只 需要 一 次 方法 调用 即 可 得 到 |: 


In [72] 
PETSI 
In [74] 
Out [74] 
In [75] 
Out [75] 
In [76] 
Out [76]: 


from valuation_mcs_european import valuation_mcs_european 


eur_call = valuation_mcs_european('eur_call', underlying=gbm, 
mar_env=me_call, payoff_func=payoff_func) 


stime eur_call.present_value() © 
CPU times: user 14.8 ms, sys: 4.06 ms, total: 18.9 ms 
Wall time: 43.5 ms 


: 2.146828 


Stime eur _call.delta() @ 
CPU times: user 12.4 ms, sys: 2.68 ms, total: 15.1 ms 
Wall time: 40.1 ms 


0.5155 
štime eur_call.vega() © 
CPU times: user 21 ms, sys: 2.72 ms, total: 23.7 ms 


Wall time: 89.9 ms 


14.301 
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@ 估算 欧式 看 涨 期 权 的 现 值 。 

@ 估算 期 权 的 Delta 值 ， 看 涨 期 权 的 Delta 值 为 正 。 

© 估算 期 权 的 Vega 值 ， 看 涨 与 看 跌 期 权 的 Vega 值 都 为 正 。 

一 旦 拥有 了 估 值 对 象 ， 就 很 容易 实施 现 值 和 “希腊 字母 ”的 更 全 面 分 析 。 下 面 的 代码 
计算 标的 初 值 为 34 一 46 欧元 时 的 现 值 、Delta 和 Vega。 结 果 如 图 19-1 所 示 。 


In [77]: %S%time 
s_list = np.arange(34., 46.1, 2.) 
p_list = []; d list = []; v_list = [] 


for s in s list: 








eur_call.update (initial_value=s) 
p_list.append(eur_call.present_value (fixed_seed=True) ) 
d_list.append(eur_call.delta()) 
v_list.append(eur_call.vega() ) 

CPU times: user 374 ms, sys: 8.82 ms, total: 383 ms 

Wall time: 609 ms 


In [78]: from plot_option_stats import plot_option_stats 


In [79]: plot_option_stats(s_list, p_list, d_list, v_list) 








@ present value 


@ Delta 


0.6 


@ Vega 


34 36 38 40 42 44 46 
initial value of underlying 


19-1 欧式 看 涨 期 权 的 现 值 、Delta 和 Vega 的 估算 
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可 使 用 助手 函数 plot_option_stats () 进行 可 视 化 : 


# 

# DX Package 

# 

# Valuation -- Plotting Options Statistics 
# 

# plot_option_stats.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 

import matplotlib.pyplot as plt 


def plot_option_stats(s_list, p_list, d_list, v_list): 
''' Plots option prices, deltas, and vegas for a set of 
different initial values of the underlying. 


Parameters 


s_list: array or list 
set of initial values of the underlying 
p list: array or list 
present values 
d_list: array or list 
results for deltas 
v_list: array or list 
results for vegas 
ver 
plt.figure(figsize=(10, 7)) 
subl = plt.subplot (311) 
plt.plot(s_list, p_list, 'ro', label='present value") 
plt.plot(s_list, p_list, 'b') 
plt.legend (loc=0) 
plt.setp(subl.get_xticklabels(), visible=False) 
sub2 = plt.subplot (312) 
plt.plot(s_list, d list, 'go', label='Delta') 





plt.plot(s_list, d_list, 'b') 





plt.legend (loc=0) 
plt.ylim(min(d_list) - 0.1, max(d_list) + 0.1) 
lt.setp(sub2.get_xticklabels(), visible=False) 
ub3 = plt.subplot (313) 

lt.plot(s list, v_list, 'yo', label='Vega') 








1t.xlabel ("initial value of underlying") 





Pp 
s 
Pp 
plt.plot(s_list, v_list, 'b') 
Pp 
Pp 


lt. legend (loc=0) 
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这 说 明 ，DX 库 的 使 用 尽管 涉及 很 多 数值 计算 , 但 是 归结 起 来 , 采用 的 方法 可 以 与 拥有 
封闭 式 期 权 定 价 公式 的 情况 媲美 。 这 种 方法 不 仅 适 用 于 目前 考虑 的 简单 收益 。 而 且 可 
以 处 理 复杂 得 多 的 收益 。 

为 此 ， 我 们 考虑 常规 和 亚 式 收益 的 组 合 。 处 理 方式 与 分 析 方 式 相 同 ， 并 且 都 基本 独立 
于 定义 的 收益 类 型 。 图 19-2 显示 ， 标 的 初始 价值 接近 行 权 价 (40 ) 时 Delta 变 为 1。 从 
































这 个 特定 点 起 ， 标 的 初始 价值 的 每 次 CHE) 增加 均 会 导致 期 权 价 值 有 同等 的 ( 蒜 ) 增加 : 
10.0 @ present value 
7.5 
5.0 
2.5 
0.0 
1.0 @ Delta 
0.8 
0.6 
0.4 
0.2 
125 @ Vega 
100 
75 
50 
25 
34 36 38 40 42 44 46 
initial value of underlying 
19-2 ”欧式 - 亚 式 看 涨 期 权 的 现 值 、Delta 和 Vega 估算 
In [80]: payoff func = 'np.maximum(0.33 * ' 
payoff_func += '(maturity_value + max_value) - 40, 0)' @ 
In [81]: eur as call = valuation_mcs_european('eur_as_call', underlying=gbm, 
mar_env=me_call, payoff_func=payoff_func) 
In [82]: %%time 
s_list = np.arange(34., 46.1, 2.) 
p_list = []; d_list = []; v_list = [] 
for s in s list: 
eur_as_call.update(s) 
p_list.append(eur_as_call.present_value (fixed_seed=True) ) 
d_list.append(eur_as_call.delta()) 
v_list.append(eur_as_call.vega() ) 
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CPU times: user 319 ms, sys: 14.2 ms, total: 333 ms 
Wall time: 488 ms 


In [83]: plot_option_stats(s_list, p_list, d_list, v_list) 


@ 收益 取决 于 模拟 到 期 日 价值 和 模拟 路 径 上 的 最 大 值 。 


19.3 ”美式 行 权 


美式 期 权 (或 者 百慕大 式 期 权 ' ) 的 估 值 比 欧式 期 权 要 复杂 得 多 。 因 此 ， 在 介绍 估 值 类 
之 前 ， 我 们 必须 首先 介绍 更 多 估 值 理论 。 

19.3.1 最 小 二 乘 蒙特 卡 洛 方法 

Cox, Ross 和 Rubinstein ( 1979 ) 提出 了 他 们 的 二 项 式 模型 ， 在 相同 框架 里 用 简单 的 数 
值 化 方法 估算 欧式 和 美式 期 权 的 价值 ， 但 是 只 有 Longstaff-Schwartz ( 2001 ) 的 模型 完 
美 地 解决 了 用 蒙特 卡 洛 模拟 ( MCS ) 估计 美式 期 权 价值 的 问题 。 主 要 的 问题 是 ,，MCS 
本 身 是 前 移 式 算法 ， 而 美式 期 权 的 估 值 通常 利用 倒 推 法 实现 从 到 期 日 开始 估算 美 
式 期 权 的 持续 价值 并 倒 推出 现 值 。 


Longstaff-Schwartz (2001 ) 模型 的 深意 在 于 使 用 了 普通 最 小 二 乘 回归 ”， 根 据 所 有 可 用 
模拟 值 的 交点 估算 持续 价值 。 对 每 条 路 径 考 虑 如 下 因素 : 


。 ”标的 模拟 价值 ; 
。 ”期 权 内 在 价值 ; 
。 ”特定 路 径 的 实际 持续 价值 。 


在 离散 时 间 中 ， 百 莫大 期 权 ( 以 及 极限 情况 下 的 美式 期 权 ) 的 价值 由 最 优 截止 问题 给 
出 。 对 于 有 限时 点 集合 0< mn<b<…<T， "最 优 截止 问题 如 公式 19-3 所 示 。 


公式 19-3 百 莫 大 期 权 离 散 时 间 中 的 最 优 截止 问题 







































































V,= sup e “E%(h,(S.)) 


re{0,t) fy .°°.T} 

















公式 19-4 提供 了 日 期 0 和 如 < 了 时 美式 期 权 的 持续 价值 。 这 就 是 在 美式 期 权 Vines 后 续 日 
期 价值 的 蒜 测 度 下 ， 日 期 时 的 风险 中 立 预 期 。 














1 美式 行 权 指 的 是 行 权 可 以 在 一 段 固 定期 间 中 的 每 个 时 间 点 ( 至 少 在 交易 时 间 内 ) 中 进行 的 情况 。 百 
莫大 行 权 通 常 指 的 是 有 多 个 离散 行 权 日 的 情况 ， 在 数值 应 用 中 ， 美 式 行 权 由 百 划 大 行 权 近似 计算 ， 

在 极限 的 情况 下 , 行 权 日 期 的 数量 可 能 不 限 。 原 注 

2 ”这 就 是 这 种 算法 通常 缩写 为 LSM ( 最 小 二 乘 蒙特 卡 洛 ) 的 原因 。 原 注 

3 Kohler (2010) 提供 了 美式 期 权 估 值 理 论 的 简洁 概述 ， 尤 其 是 基于 回归 方法 的 使 用 。 一 一 原 注 
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公式 19-4 美式 期 权 持 续 价 值 
C (sso ECV, (SIS, =5) 


美式 期 权 在 日 期 ,时 的 价值 也 可 以 用 公式 19-5 中 的 公式 表示 
( 内 在 价值 ) 和 不 行 权 预期 收益 ( 持续 价值 ) 两 者 的 最 大 值 。 


公式 19-5 美式 权证 在 任何 给 定 日 期 的 价值 





立即 行 权 的 收益 

















V, =max(h, (s),C, (s)) 


在 公式 19-5 中 ， 内 在 价值 很 容易 计算 。 持 续 价值 则 稍微 有 些 难 度 ，Longstaff- Schwartz 
( 2001 ) 模型 通过 公式 19-6 提供 的 回归 公式 来 近似 计算 该 值 。 其 中 ，i 表示 当前 模拟 路 
径 , 刀 是 所 使 用 回归 基 函 数 的 数量 ，a 是 最 优 回归 参数 ，by 是 编号 为 4 的 回归 函数 。 


公式 19-6 基于 回归 的 持续 价值 近似 计算 





























最 优 回归 参数 是 公式 19-7 提出 的 最 小 二 乘 回归 问题 的 解 。 式 中 ,也 ,= eV ,是 
路 径 i 在 日 期 时 的 实际 持续 价值 (不 是 回归 /估算 的 价值 )。 
公式 19-7 普通 最 小 二 来 回归 




















2 
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这 就 完成 了 通过 MCS 估算 美式 期 权 价值 的 基本 (数学 ) 工具 集 。 


19.3.2” 估 值 类 


例 19-4 提供 了 采用 美式 行 权 方 式 的 期 权 和 衍生 品 的 估 值 类 。 在 present_value () 方法 
H, LSM 算法 的 实现 有 一 个 值得 注意 的 步骤 (在 内 符 注 释 中 也 体现 了 ): 最 优 决策 步 
又 。 这 里 重要 的 是 , 根据 做 出 的 决策 ，LSM 算法 采用 内 在 价值 或 者 实际 持续 价值 一 一 而 
不 是 估算 的 持续 价值 。 

# 

# DX Package 

# 

# Valuation —- American Exercise Class 

# 


# valuation_mcs_american.py 


# 


























7 





1 参加 Hilpisch(2015) 的 第 6 章 。 一 一 原 注 
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# Python for Finance, 2nd ed. 
# (c) Dr. Yves J. Hilpisch 


# 


import numpy as np 


from valuation_class import valuation_class 


class valuation_mcs_american(valuation class): 


def 


def 


''' Class to value American options with arbitrary payoff 
by single-factor Monte Carlo simulation. 


generate payoff: 
returns payoffs given the paths and the payoff function 
present_value: 
returns present value (LSM Monte Carlo estimator) 
according to Longstaff-Schwartz (2001) 


generate payoff (self, fixed_seed=False) : 


one 


Parameters 


fixed_seed: 
use same/fixed seed for valuation 


one 


try: 

# strike is optional 

strike = self.strike 
except: 

pass 
paths = self.underlying.get_instrument_values (fixed_seed=fixed_seed) 
time_grid self.underlying.time_grid 
time_index_start = int (np.where (time grid == self.pricing_date) [0]) 
time_index_end = int (np.where (time grid == self.maturity) [0]) 


instrument_values = paths[time_index_start:time_index_end + 1] 
payoff = eval(self.payoff_func) 


return instrument_values, payoff, time_index_start, time_index_end 





present_value(self, accuracy=6, fixed_seed=False, bf=5, full=False): 


EEF 


Parameters 


accuracy: int 
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number of decimals in returned result 
fixed _ seed: bool 
use same/fixed seed for valuation 





bf: int 
number of basis functions for regression 
full: bool 


return also full Ja array of present values 
ver 
instrument values, inner values, time index start, time index end = \ 
self.generate_payoff (fixed_seed=fixed_seed) 
time_list = self.underlying.time_grid|[ 
time _index start:time index end + 1] 
discount_factors = self.discount_curve.get_discount_factors ( 
time_list, dtobjects=True) 
V = inner values[-1] 
for t in range(len(time_list) - 2, 0, -1): 
# derive relevant discount factor for given time interval 
df = discount factors[t, 1] / discount factors[t + 1, 1] 
# regression step 
rg = np.polyfit (instrument_values[t], V * df, bf) 
calculation of continuation values per path 
= np.polyval(rg, instrument_values[t]) 
optimal decision step: 


# 
Ç 
# 
# if condition is satisfied (inner value > regressed cont. value) 
# then take inner value; take actual cont. value otherwise 

V 





= np.where(inner_values[t] > C, inner_values[t], V * df) 
df = discount_factors[0, 1] / discount_factors[1, 1] 
result = df * np.sum(V) / len(V) 
af. furis 
return round (result, accuracy), df * V 
else: 
return round (result, accuracy) 


19.3.3 用例 


正如 前 面 选择 的 方法 ， 用 例 可 以 说 明 dax .valuation mcs_american 类 的 用 法 。 这 
个 用 例 重 复 Longstaff 和 Schwartz (2001 ) 原创 论文 中 表 1 所 介绍 的 所 有 美式 期 权 价值 。 
标的 和 前 面 一 样 ， 是 一 个 dx.geometric_brownian_motion 对 象 。 标 的 物 的 起 始 


参数 如 下 : 


In 


In 








84]: me gbm = market_environment ('me_gbm', dt.datetime (2020, 1, 1)) 


85]: me_gbm.add_constant ('initial_value', 36.) 
me_gbm.add_constant ('volatility', 0.2) 
me_gbm.add_constant ('final_date', dt.datetime(2021, 12, 31)) 
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me_gbm.add_constant ('currency', 'EUR') 
me_gbm.add_constant ('frequency', 'W') 
me_gbm.add_constant ('paths', 50000) 

In [86]: csr = constant_short_rate('csr', 0.06) 

In [87]: me_gbm.add_curve('discount_curve', csr) 

In [88]: gbm = geometric_brownian_motion('gbm', me_gbm) 


In [89]: payoff func = 'np.maximum(strike - instrument_values, 0)' 


In [90]: me am put = market_environment ('me_am_put', dt.datetime(2020, 1, 1)) 











In [91]: me_am_put.add_constant ('maturity', dt.datetime(2020, 12, 31)) 
me_am_put.add_constant('strike', 40.) 





me_am_put.add_constant ('currency', 'EUR') 


下 一 步 是 根据 数值 化 假设 实例 化 估 值 对 象 。 美 式 看 跌 期 权 估 值 花费 的 时 间 比 欧式 期 权 
长 得 多 。 我 们 不 仅 增加 了 路 径 的 数量 和 佑 值 的 频率 ， 由 于 向 后 推导 和 每 个 推导 步骤 的 
回归 ， 该 算法 的 计算 要 求 也 更 高 。 用 数值 化 方法 得 到 的 价值 基金 与 原创 论文 中 报告 的 
准确 值 4.478 相当 接近 : 


In [92]: from valuation mcs american import valuation_mcs_american 














In [93]: am put = valuation_mcs_american('am_put', underlying=gbm, 
mar_env=me_am_put, payoff _func=payoff_func) 


In [94]: %time am_put.present_value(fixed_seed=True, bf=5) 
CPU times: user 1.57 s, sys: 219 ms, total: 1.79 s 
Wall time: 2.01 s 


Out [94]: 4.472834 


由 于 LSM 蒙特 卡 洛 估算 函数 的 最 初 构 造 , 所 以 它 可 以 表示 数学 上 正确 的 美式 期 权 价值 
下 界 `。 因 此 ， 可 以 预期 ， 这 种 数值 化 估算 的 结果 低 于 任何 数值 化 实例 的 真 值 。 作 为 蔡 
代 的 对 偶 估 算 函 数 还 能 提供 上 界 “。 将 两 者 结合 起 来 ， 两 个 不 同 的 估算 函数 可 以 定义 美 
式 期 权 真 值 的 区 间 。 

这 个 用 例 的 主要 目标 是 复制 原创 论文 中 表 1 的 所 有 美式 期 权 价值 。 为 此 ， 我 们 只 需要 
结合 估算 对 象 和 肉 套 循环 。 在 最 内 层 循环 中 ， 佑 值 对 象 必须 根据 当时 的 参数 更 新 : 


























原 注 








1 主要 原因 是 基于 持续 价值 回归 估算 的 “最 优 行 权 策略 ”未 能 达到 “最 优 ” 的 标准 。 
2 得 出 上 界 的 对 偶 算法 和 Python 实现 请 参见 Hilpisch(2015) 的 第 6 章 。 原 注 
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In [95]: %%time 
ls table = [] 
for initial value in (36., 38., 40., 42., 44.): 
for volatility in (0.2, 0.4): 
for maturity in (dt.datetime(2020, 12, 31), 
dt.datetime (2021, 12, 31)): 
am_put.update (initial _value=initial_ value, 
volatility=volatility, 
maturity=maturity) 
ls_table.append([initial_value, 
volatility, 
maturity, 
am_put.present_value (bf=5) ]) 
CPU times: user 41.1 s, sys: 2.46 s, total: 43.5 s 
Wall time: lmin 30s 
In [96]: print('SO | Vola | T | Value') 
print(22 *  '=") 
for r in ls table: 
print ("sd | %3.1£ | sa | %5.3£' % 
(r[0], rll], r[2].year - 2019, r[3])) 
so Vola T Value 
36 0.2 1 4.447 
36 0.2 2 4.773 
36 0.4 1 7.006 
36 0.4 2 8.377 
38 0.2 1 33213 
38 0.2 2 3.645 
38 0.4 1 6.069 
38 0.4 2 7.539 
40 0.2 1 2.269 
40 0.2 2 2.781 
40 0.4 1 5.211 
40 0.4 2 6.756 
42 0.2 1 14556 
42 0.2 2 2.102 
42 0.4 1 4.466 
42 0.4 2 6.049 
44 0.2 1 1.059 
44 0.2 2 L617 
44 0.4 1 3.852 
44 0.4 2 5.490 
这 些 结果 是 Longstaff 和 Schwartz (2001 ) 论文 中 表 1 的 简化 版 本 。 总 体 来 说 ， 我 们 的 
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数值 化 结果 相当 接近 论文 中 报告 的 结果 ， 论 文 使 用 了 一 些 不 同 的 参数 ( 例如， 他们 使 
用 两 倍数 量 的 路 径 )。 

在 这 个 用 例 结束 的 时 候 要 注意 ， 美 式 期 权 的 “希腊 字母 ”估算 在 形式 上 和 欧式 期 权 相 
同一 一 这 是 我 们 的 方法 与 其 他 数值 化 方法 ( 如 二 项 式 模型 ) 相 比 的 重大 优势 之 一 : 


In [97]: am_put.update(initial_value=36.) 











am_put.delta() 
Out [97]: -0.4631 


In [98]: am_put.vega() 
Out [98]: 18.0961 


最 小 二 乘 蒙特 卡 洛 方法 
对 于 美式 或 百慕大 式 期 权 其 至 复杂 衍生 品 的 估 值 来 说 ，Longstaff 和 
Schwartz (2001) 的 LSM 估 值 算法 在 数值 上 很 高 效 。OLS 回归 步骤 


可 以 根据 一 种 高 效 的 数字 方法 来 实现 最 优 行 权 策略 的 近似 计算 。 由 于 
OLS 回归 可 以 轻松 地 处 理 高 维 数据 ， 所 以 它 成 为 灵活 的 衍生 品 定价 方法 。 
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本 章 介 绍 了 基于 蒙特 卡 洛 模拟 的 欧式 和 美式 期 权 数 值 化 估 值 。 本 章 介绍 了 一 个 通用 估 
值 类 dx .valuation_class， 这 个 类 提供 了 许多 方法 ， 例 如 估算 两 类 期 权 非 常 重要 
的 “希腊 字母 ”( delta、vega ) 的 方法 ， 这 项 方法 独立 于 估 值 使 用 的 模拟 对 象 ( 风险 因 
素 / 随 机 过 程 )。 

在 通用 估 值 类 的 基础 上 ， 本 章 介绍 了 两 个 专用 类 : dx.valuation_mcs_european 和 
dx.valuation_ mcs_american。 欧 式 期 权 的 估 值 类 主要 是 第 17 章 中 介绍 的 风险 中 
立 估 值 方法 简单 实现 与 一 个 预期 项 数值 化 估算 ( 正如 第 11 章 中 所 讨论 的 ， 是 蒙特 卡 洛 
模拟 的 积分 ) 的 结合 。 

美式 期 权 的 估 值 类 需要 某 种 基于 回归 的 估 值 算法 ( 称 为 最 小 二 乘 蒙特 卡 洛 方法 LSM )。 
这 是 因为 美式 期 权 的 估 值 需要 最 优 行 权 策略 。 这 在 理论 上 和 数值 化 方法 上 都 更 复杂 一 
些 , 但是， 对 应 类 的 present_value () 方法 仍然 很 简洁 。 

已 经 证 明 ，DX 衍生 品 分 析 库 所 采用 的 方法 是 很 有 益 的 。 不 需要 花费 太 多 的 精力 , 我们 
就 可 以 估算 具有 如 下 特征 的 一 大 类 期 权 的 价值 : 

。 单一 风险 因素 期 权 ; 

。 ”欧式 或 者 美式 行 权 ; 
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。 任意 收益 。 


此 外 ,我 们 可 以 估算 这 类 期 权 中 非常 重要 的 “希腊 字母 "。 为 了 简化 未 来 的 导入 ,我 们 
再 次 使 用 一 个 包装 器 模块 dx_valuation.py: 








DX Package 


Valuation Classes 


dx valuation.py 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


SF FH FH HR RHR RR HR KH 


import numpy as np 
import pandas as pd 


from dx_simulation import * 
from valuation_class import valuation_class 
from valuation_mcs_european import valuation_mcs_european 


from valuation_mcs_american import valuation_mcs_american 


dx 文件 夹 中 的 __init__.py 文件 被 相应 更 新 : 


# 

# DX Package 

# packaging file 

# init__.py 

# 

import numpy as np 
import pandas as pd 
import datetime as dt 


# frame 

from get_year_deltas import get_year_deltas 

from constant_short_rate import constant_short_rate 
from market_environment import market_environment 


from plot_option_stats import plot_option_stats 


# simulation 

from sn_random_numbers import sn_random_numbers 

from simulation_class import simulation_class 

from geometric_brownian_motion import geometric_brownian_motion 
from jump_diffusion import jump_diffusion 

from square_root_diffusion import square_root_diffusion 
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# valuation 
from valuation_class import valuation_class 
from valuation_mcs_european import valuation_mcs_european 


from valuation_mcs_american import valuation_mcs_american 


19.5 ”延伸 阅读 
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WUUUUU 





价格 是 你 所 付出 的 ， 价 值 是 你 所 得 到 的 。 
沃 伦 。 巴 菲 特 





到 目前 为 止 ， 构 建 DX 衍生 品 分 析 库 的 完整 方法 以 及 相关 的 好 处 读者 应 该 已 经 相当 清 
楚 了 。 通 过 将 严格 依赖 蒙特 卡 洛 模拟 作为 唯一 的 数值 方法 ， 我 们 几乎 已 经 完成 了 分 析 
库 的 模块 化 工作 ， 如 下 所 示 。 
LE 
dx.constant_short_rate 类 的 实例 负责 处 理 对 应 的 风险 中 立 折 现 。 
FOR BH 
相关 数据 、 参 数 和 其 他 输入 都 保存 在 dx.market_environment 类 的 (多 个 ) 
实例 中 。 
BRITE 
相关 风险 因素 (标的 ) 的 模型 是 以 下 3 个 模拟 类 之 一 的 实例 ; 


e dx.geometric_brownian_motion; 



































e dx. jump_diffusion; 
e dx.square_root_diffusion, 
te METH 
需要 估 值 的 期 权 和 衍生 品 的 模型 是 以 下 两 个 佑 值 类 之 一 的 实例 : 


e dx.valuation_mcs_european; 
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e dx.valuation_mcs_american, 
最 后 还 需要 一 步 : 期 权 和 衍生 品 投资 组 合 〈( 可 能 很 复杂 ) 的 估 值 。 为 此 ， 我 们 需要 如 
下 要 素 。 
dE RE 

每 种 风险 因素 ( 标的 ) 只 能 建 模 一 次 ， 可 能 供 多 个 估 值 对 象 使 用 。 
EJA 

必须 考虑 风险 因素 之 间 的 相关 性 。 
AT 

例如 ， 开 仓 头 才 由 一 定数 量 的 期 权 合约 组 成 。 
尽管 在 理论 上 允许 ( 甚至 要 求 ) 为 模拟 和 估 值 对 象 分 别提 供 币 种 ， 但 是 我 们 假定 所 要 
估 值 的 投资 组 合 仅 以 单一 货币 标价 。 这 明显 简化 了 投资 组 合 中 价值 汇总 的 工作 ， 因 为 
我 们 无 须 考虑 汇率 和 货币 风险 。 
本 章 介绍 两 个 新 类 : 较为 简单 的 一 个 类 用 于 建立 衍生 品 头寸 模 型 ， 较 复杂 的 一 个 类 用 
于 建立 衍生 品 投资 组 合 模型 并 进行 估 值 。 本 章 的 结构 如 下 。 
ATA BAT 

本 节 介 绍 为 单一 衍生 品 头寸 建 模 的 类 。 
APA ed RLS 


X 
本 节 介 绍 投资 组 合 估 值 (可 能 包含 许多 衍生 品 头 才 ) 的 核心 类 。 





























20.1 衍生 品 头 寸 
理论 上 ， 衍 生 品 头 才 不 过 就 是 用 于 建立 金融 工具 模型 的 估 值 对 象 和 数量 的 组 合 。 


20.1.1 类 


下 面 的 代码 展示 了 建立 衍生 品 头 才 模 型 的 类 。 它 主要 是 存放 其 他 数据 和 对 象 的 容器 。 
此 外 ， 该 类 提供 get_info () 方 法 ， 用 于 打印 保存 在 类 实例 中 的 数据 和 对 象 信息 。 


# 

# DX Package 

# 

# Portfolio —- Derivatives Position Class 
# 

# derivatives _position.py 


# 
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# Python for Finance, 2nd ed. 
# (c) Dr. Yves J. Hilpisch 
# 


class derivatives_position (object): 
''' Class to model a derivatives position. 


Attributes 


name: str 
name of the object 
quantity: float 


number of assets/derivatives making up the position 


underlying: str 


name of asset/risk factor for the derivative 


mar_env: instance of market_environment 


constants, lists, and curves relevant for valuation_class 


otype: str 

valuation class to use 
payoff_func: str 

payoff string for the derivative 


Methods 


get_info: 


prints information about the derivatives position 


def _init__(self, name, quantity, underlying, mar_env, 


otype, 


payoff func): 


self.name = name 


self.quantity = quantity 


self.underlying = underlying 


self.mar_env = 


mar_env 


self.otype = otype 


self.payoff func = payoff func 
def get_info(self): 


print ('NAM 





E') 





print (self.name, '\n"') 

print ('QUANTITY') 

print (self.quantity, '\n"') 
print ('UNDERLYING') 

print (self.underlying, '\n') 
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print ('MARKET ENVIRONMENT ') 


print ('\n**Constants**"') 





for key, value in self.mar_env.constants.items(): 
print (key, value) 

print ('\n**Lists**') 

for key, value in self.mar_env.lists.items(): 
print (key, value) 

print ('\n**Curves**') 


for key in self.mar_env.curves.items(): 














print (key, value) 
print ('\nOPTION TYPE') 
print (self.otype, '\n') 
print ('PAYOFF FUNCTION') 
print (self.payoff_func) 


为 了 定义 衍生 品 头寸 ， 我 们 需要 提供 如 下 信息 ， 这 几乎 和 佑 值 类 的 实例 化 相同 。 


name 

表示 头寸 名 称 的 字符 串 对 象 。 
quantity 

期 权 / 衍 生 品 数量 。 
underlying 

作为 风险 因素 的 模拟 对 象 实例 。 


mar env 











dx.market_environment 实例 。 


otype 


> Ars oA 


FPA, European 或 者 American, 





payoff_func 
表示 收益 的 Python 字符 串 对 象 。 


20.1.2 用例 


下 面 的 交互 式 会 话说 明了 该 类 的 用 法 。 不 过 ， 我 们 必须 首先 定义 一 个 模拟 对 象 ( 但 不 
是 完整 的 ， 只 需要 最 终 的 对 象 特性 信息 ): 


In [99]: from dx_valuation import * 




















In [100]: me gbm = market_environment ('me_gbm', dt.datetime(2020, 1, 1)) © 
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In [101]: me gbm.add constant ('initial_value', 36.) © 
me_gbm.add constant ('volatility', 0.2) © 
me_gbm.add_constant ('currency', 'EUR') 0 





In [102]: me_gbm.add_constant('model', 'gbm') @ 

O 表示 标的 的 dx .market_environment WH, 

@ 此 处 必须 指定 模型 类 型 。 

类 似 地 , 在 定义 衍生 品 头 才 时 ,我 们 不 需要 完整 的 dx .market_environment WR, 
遗漏 的 信息 在 后 面 ( 投资 组 合 估 值 期 间 ) 模拟 对 象 初始 化 时 提供 : 


In [103]: from derivatives position import derivatives position 








In [104]: me am put = market_environment ('me am put', dt.datetime 
(2020, 1, 1)) © 


In [105]: me am put.add constant ('maturity', dt.datetime (2020, 12, 31)) © 
me_am_put.add_constant('strike', 40.) © 
me_am_put.add_constant('currency', 'EUR"') 0 


In [106]: payoff_func = 'np.maximum(strike - instrument_values, 0)' @ 


In [107]: am_put_pos = derivatives_position ( 
name='am_put_pos', 
quantity=3, 
underlying='gbm', 
mar_env=me_am_put, 
otype='American', 
payoff_func=payoff_func) ® 


In [108]: am_put_pos.get_info() 





NAME 

am_put_pos 
QUANTITY 

3 

UNDERLYING 

gbm 

MARKET ENVIRONMENT 








**Constants** 
maturity 2020-12-31 00:00:00 
strike 40.0 
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currency EUR 


HALLSES*E* 


*xCurves** 


OPTION TYPE 


American 





PAYOFF FUNCTION 


np.maximum (strike — instrument_values, 0) 
O 表示 衍生 品 的 dx.market_environment XA., 
@ 衍生 品 的 收益 郴 数 。 
© derivatives_position 对 象 实例 化 。 
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从 投资 组 合 的 角度 看 ,“ 相 关 市 场 ”主要 是 由 相关 风险 因素 (标的 ) 及 其 相关 性 ， 以 及 
所 要 信 值 的 衍生 品 和 衍生 品 头寸 组 成 的 。 从 理论 上 ， 我 们 现在 要 处 理 的 是 一 个 一 般 市 
场 模型 上 (如 第 17 章 中 的 定义 )， 并 对 其 应 用 资产 定价 基本 定理 及 其 推论 。 


20.2.1 类 


下 面 介绍 一 个 稍 复杂 的 Python 类 ， 它 根据 资产 定价 基本 定理 实施 投资 组 合 估 值 ， 考 虑 
了 多 种 相关 风险 因素 和 多 种 衍生 品 头寸 。 该 类 的 内 和 藤 文档 相当 完备 ， 特 别 是 实现 特定 
目的 的 段落 : 


# 

# DX Package 

# 

# Portfolio -- Derivatives Portfolio Class 
# 

# derivatives_portfolio.py 

# 

# Python for Finance, 2nd ed. 

# (c) Dr. Yves J. Hilpisch 

# 


import numpy as np 
































1 在 实践 中 , 我们 在 此 选择 的 方法 有 时 候 称 作 “ 总 体 估 值 ”而 不 是 “特定 金融 工具 估 值 ” 。 参 考 Albanese、 
Gimonet 和 White ( 2010a ) 在 Risk Magazine 上 发 表 的 论文 。 一 一 原 注 





























592 第 20 章 ”投资 组 合 估 值 


import pandas as pd 

from dx_valuation import * 

# models available for risk factor modeling 

models = {'gbm': geometric_brownian_motion, 
'jd': jump_diffusion, 


"srd': square_root_diffusion} 


# allowed exercise types 





otypes = {'European': valuation_mcs_european, 


'American': valuation mcs american} 


class derivatives_portfolio(object): 


''' Class for modeling and valuing portfolios of derivatives positions. 


Attributes 


name: str 
name of the object 
positions: dict 


dictionary of positions (instances of derivatives_position class) 


val_env: market_environment 
market environment for the valuation 
assets: dict 
dictionary of market environments for the assets 
correlations: list 
correlations between assets 
fixed_seed: bool 


flag for fixed random number generator seed 


get_positions: 
prints information about the single portfolio positions 
get_statistics: 


returns a pandas DataFrame object with portfolio statistics 


def _init__(self, name, positions, val_env, assets, 
correlations=None, fixed _seed=False): 
self.name = name 
self.positions = positions 


self.val_env = val_env 
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self.assets = assets 
self.underlyings = set() 
self.correlations = correlations 
self.time_grid = None 
self.underlying_objects = {} 
self.valuation_objects = {} 
self.fixed_seed = fixed seed 





self.special_dates = [] 
for pos in self.positions: 
# determine earliest starting_date 
self.val_env.constants['starting_date'] = \ 
min(self.val_env.constants['starting_date'], 
positions [pos] .mar_env.pricing_ date) 
# determine latest date of relevance 
self.val_env.constants['final_ date'] = \ 
max (self.val_env.constants['final date'], 
positions [pos] .mar_env.constants['maturity']) 
# collect all underlyings and 
# add to set (avoids redundancy) 
self.underlyings.add(positions [pos] .underlying) 


# generate general time grid 
start = self.val_env.constants['starting_date'] 
end = self.val_env.constants['final date'] 
time_grid = pd.date_range(start=start, end=end, 
freq=self.val_env.constants['frequency"] 
) .to_pydatetime () 
time_grid = list (time_grid) 
for pos in self.positions: 
maturity_date = positions[pos].mar_env.constants['maturity'] 
if maturity_date not in time_grid: 
time_grid.insert (0, maturity_date) 
self.special_dates.append(maturity_date) 
if start not in time_grid: 
time_grid.insert(0, start) 
if end not in time_grid: 
time_grid.append (end) 
# delete duplicate entries 
time_grid = list (set (time_grid) ) 
# sort dates in time_grid 
time_grid.sort () 
self.time_grid = np.array (time grid) 
self.val_env.add_list ('time_grid', self.time_grid) 


if correlations is not None: 
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# take care of correlations 
ul_list = sorted(self.underlyings) 
correlation matrix = np.zeros((len(ul_list), len(ul_list))) 
np.fill_diagonal (correlation_matrix, 1.0) 
correlation_matrix = pd.DataFrame (correlation _matrix, 
index=ul_list, columns= 
ul_list) 
for i, j, corr in correlations: 
corr = min(corr, 0.999999999999) 
# fill correlation matrix 
correlation_matrix.loc[i, j] = corr 
correlation_matrix.loc[j, i] = corr 
# determine Cholesky matrix 
cholesky_matrix = np.linalg.cholesky (np.array (correlation_matrix) ) 
# dictionary with index positions for the 
# slice of the random number array to be used by 
# respective underlying 
rn set = {asset: ul_list.index (asset) 
for asset in self.underlyings} 


# random numbers array, to be used by 
# all underlyings (if correlations exist) 
random numbers = sn_random_numbers((len(rn_set), 
len(self.time_grid), 
self.val_env.constants 
['paths']), 
fixed seed=self.fixed_seed) 


# add all to valuation environment that is 

# to be shared with every underlying 
self.val_env.add_list ('cholesky_matrix', cholesky_matrix) 
self.val_env.add_list('random_numbers', random numbers) 
self.val_env.add_list('rn_set', rn set) 


for asset in self.underlyings: 
# select market environment of asset 
mar env = self.assets[asset] 
# add valuation environment to market environment 
mar env.add environment (val env) 
# select right simulation class 
model = models[mar env.constants['model']] 
# instantiate simulation object 
if correlations is not None: 
self.underlying_objects[asset] = model(asset, mar_env, 


corr=True) 
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else: 
self.underlying_objects[asset] = model(asset, mar_env, 
corr=False) 


for pos in positions: 
# select right valuation class (European, American) 
val_class = otypes[positions [pos] .otype] 
# pick market environment and add valuation environment 
mar_env = positions [pos] .mar env 
mar env.add environment (self.val_env) 
# instantiate valuation class 
self.valuation_objects[pos] = \ 
val_class (name=positions [pos] .name, 
mar_env=mar_env, 
underlying=self.underlying_objects[ 
positions[pos].underlying], 
payoff_func=positions [pos] .payoff_func) 


def get positions (self): 

'''’ Convenience method to get information about 
all derivatives positions in a portfolio. ''' 
for pos in self.positions: 

bar = '"\n' + 50 * '-! 

print (bar) 

self.positions [pos] .get_info() 

print (bar) 


def get_statistics(self, fixed_seed=False): 
''' Provides portfolio statistics. ''' 
res list = [] 
# iterate over all positions in portfolio 
for pos, value in self.valuation_objects.items(): 
p = self.positions[pos] 
pv = value.present_value (fixed_seed=fixed_seed) 
res_list.append ([ 
p.name, 
p-quantity, 
# calculate all present values for the single instruments 
PV, 
value.currency, 
# single instrument value times quantity 
pv * p.quantity, 
# calculate delta of position 
value.delta() * p.quantity, 
# calculate vega of position 
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value.vega() * p.quantity, 
]) 
# generate a pandas DataFrame object with all results 
res_df = pd.DataFrame(res_list, 
columns=['name', 'quant.', 'value', 'curr.', 
"pos value', 'pos_delta', 'pos_vega']) 
return res_df 


面向 对 象 

dx .dqerivatives_portfolio 类 说 明了 第 6 章 介 绍 的 面向 对 象 方 法 
的 诸多 好 处 。 乍 一 看 ， 它 有 点 像 一 堆 复 杂 的 Python 代码 。 但 是 ， 它 所 
解决 的 金融 问题 相当 复杂 ， 并 提供 了 处 理 大 量 不 同 用 例 的 灵活 性 。 很 
难 想 象 ， 不 使 用 面向 对 象 编程 方法 和 Python 类 ， 如 何 实现 这 些 功能 。 








20.2.2 用例 


按照 DX 分 析 库 的 设计 概略 来 看 ， 建 模 能 力 被 限制 于 模拟 类 和 估 值 类 的 组 合 。 共 有 6 
种 可 能 的 组 合 : 


models = {'gbm' : geometric_brownian_motion, 





'jd' : jump_diffusion 
"srd': square_root_diffusion} 





otypes = {'European' : valuation_mcs_european, 
‘American’ : valuation mcs american} 
在 下 面 的 交互 式 用 例 中 ， 我 们 组 合 选择 的 元 素 以 定义 两 种 不 同 的 衍生 品 头 寸 ， 并 将 其 
合并 为 一 个 投资 组 合 。 
我 们 以 derivatives_position 类 和 之 前 的 gbm 及 am_put_pos 对 象 为 基础 构建 
这 个 用 例 。 为 了 说 明 derivatives_position 类 的 用 法 ,我 们 定义 一 个 附加 的 标的 
和 附加 的 期 权 头 寸 。 首 先是 一 个 dx . jump_diffusion 对 象 : 


In [109]: me jd = market_environment ('me_jd', me_gbm.pricing_date) 








In [110]: me jd.add constant ('lambda', 0.3) © 
me_jd.add_constant('mu', -0.75) 
me_jd.add_constant ('delta', 0.1) 
me_jd.add_environment (me gbm) @ 





In [111]: me jd.add constant ('model', 'jd') © 
@ 添加 跳跃 扩散 特定 参数 。 
@ 添加 gbm 的 其 他 参数 。 
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© 投资 组 合 估 值 所 需 的 信息 。 
其 次 是 基于 这 个 新 模拟 对 象 的 欧式 看 涨 期 权 : 


In [112]: 
In [113]: 
In [114]: 
Lo [EES]: 


me eur call = market_environment ('me_eur_call', me_jd.pricing_date) 


me_eur_call.add_constant ('maturity', dt.datetime (2020, 6, 30)) 
me eur call.add_constant('strike', 38.) 


me_eur_call.add_constant ('currency', 'EUR') 


payoff_func = 'np.maximum(maturity_value - strike, 0)' 


eur_call_pos = derivatives_position ( 
name='eur_call_pos', 
quantity=5, 
underlying='"jd', 


mar_env=me_eur_call, 





otype='European', 
payoff func=payoff func) 








从 投资 组 合 的 角度 看 ,现在 的 相关 市 场 如 下 面 的 underlyings fll positions 所 示 。 
目前 ， 定 义 中 没有 包含 标的 物 之 间 的 相关 性 。 为 投资 组 合 估 值 编辑 dx.market_ 


environment 是 实例 化 derivatives_portfolio 类 之 前 的 最 后 一 步 : 


In [116]: 
In [117]: 
In [118]: 
In [119]: 
In [120]: 

















underlyings = {'gbm': me_gbm, 'jd' : me_jd} © 


positions = {'am put pos' : am_put_pos, 
'eur call pos' : eur call pos} @ 
csr = constant_short_rate('csr', 0.06) © 
val_env = market_environment ('general', me_gbm.pricing_date) 


val_env.add_constant ('frequency', 'W') 
val_env.add_constant ('paths', 25000) 

val_env.add_constant ('starting_date', val_env.pricing_date) 
val env.add constant ('final_date', val env.pricing date) @ 


val_env.add_curve ('discount_curve', csr) ® 





from derivatives_portfolio import derivatives_portfolio 


portfolio = derivatives_portfolio ( 
name='portfolio', 
positions=positions, 
val_env=val_env, 
assets=underlyings, 
fixed _seed=False) © 
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@ 相关 风险 因素 。 

@ 相关 投资 组 合 头寸 。 
O 投资 组 合 估 值 独 有 的 折 现 对 象 。 

© final_date 未 知 ， 因 此 , 将 pricing_date 设置 为 初始 值 。 
© 实例 化 derivatives_portfolio WE, 

现在 ,我 们 可 以 利用 估 值 类 的 能 力 来 获得 刚刚 定义 的 derivatives_portfolio 对 





象 的 不 同 统计 量 。 头 二 价值 总 和 、Delta 和 Vega 也 很 容易 计算 。 这 个 投资 组 合 的 Delta 
(几乎 中 立 ) 和 Vega 值 稍微 大 一 些 : 


In [121]: 


Out [121]: 


0 








Stime portfolio.get_statistics (fixed_seed=False) 


CPU times: 
Wall time: 


Name 


am_put_pos 
eur_call_pos 











user 4.68 s, sys: 409 ms, total: 5.09 s 
14.5 s 


quant. value curr. pos value pos_delta pos vega 


3 4.458891 EUR 13.376673 -2.0430 31.7850 
5 2.828634 EUR 14.143170 3.2525 42.2655 





In [122]: portfolio.get_statistics (fixed_seed=False) [ 
['pos_value', 'pos_delta', 'pos_vega']].sum() © 
Out [122]: pos value 27.502731 
pos delta 1.233500 
pos_vega 74.050500 
dtype: float64 
In [123]: portfolio.get_positions() @ 
In [124]: portfolio.valuation_objects['am_put_pos'].present_value() © 
Out [124]: 4.453187 
In [125]: portfolio.valuation_objects['eur_call_pos'].delta() © 
Out [125]: 0.6514 
o 单一 头寸 价值 加 总 。 
@ 这 个 方法 调用 会 创建 关于 所 有 头寸 的 见长 输出 。 
© 单一 头寸 现 值 估算 。 
@ 单一 头 才 Dalta 值 估算 。 
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这 种 衍生 品 投资 组 合 估 值 根据 风险 因素 不 相关 的 假设 进行 。 
拟 路 径 〈 每 个 模拟 对 象 一 条 ) 来 进行 验证 ( 见 图 20-1 ) 


In [126]: Path no = 888 





这 很 容易 通过 检查 两 条 模 


path gbm = portfolio.underlying_objects[ 


path jd = portfolio.underlying_objects[ 


In [127]: plt.figure(figsize=(10, 6) ) 


plt.plot (portfolio.time_grid, path_gbm, 








'gbm'] .get_instrument_values()[:, path_no] 


'j3d'].get_instrument_values()[:, path_no] 


'r', label='gbm') 





plt.plot (portfolio.time_grid, path_jd, 'b', label='jd') 
plt.xticks (rotation=30) 
plt.legend(loc=0) 
— gbm 
— jd 
50 
45 
40 
35 
30 
i > © int 以 a` ANY 
KË oo os a os SN a 








图 20-1 不 相关 的 风险 因素 


现在 考虑 两 种 风险 因素 高 度 正 相关 的 情况 。 在 这 种 情况 下 ， 对 投资 组 合 中 单一 头 才 没 


有 直接 影响 : 


In [128]: correlations = [['gbm', 'Jjd', 0.9]] 





In [129]: port_corr = derivatives_portfolio ( 
name='portfolio', 
positions=positions, 


val_env=val_env, 
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assets=underlyings, 
correlations=correlations, 


fixed_seed=True) 


In [130]: port_corr.get_statistics () 


Out [130]: 
Name quant. value curr. pos_value pos_delta pos_vega 
0 am_put_pos 3 4.458556 EUR 13.375668 -2.0376 30.8676 
1 eur_call_pos 5 2.817813 EUR 14.089065 3.3375 42.2340 








但 是 ， 相 关 性 在 幕后 起 到 了 作用 。 图 20-2 采用 和 前 面 一 样 的 两 条 路 径 。 这 两 条 路 径 现 
在 几乎 平行 移动 ， 


In [131]: path_gbm = port_corr.underlying objects['gbm'].\ 
get_instrument_values()[:, path_no] 
path_jd = port_corr.underlying_objects['jd'].\ 
get_instrument_values()[:, path_no] 


In [132]: plt.figure(figsize=(10, 6)) 
plt.plot (portfolio.time_grid, path_gbm, 'r', label='gbm') 
plt.plot (portfolio.time_grid, path jd, 'b', label='jd') 
plt.xticks (rotation=30) 








plt.legend(loc=0) ; 








50.0 — gbm 
— jd 
47.5 
45.0 
42.5 
40.0 
37.5 
35.0 
NI oY ae oo a 局 RAR oo” io ANY 








20-2 ”相关 风险 因素 ( 两 条 样本 路 径 ) 
作为 最 后 一 个 数值 化 和 概念 示例 ， 请 考虑 投资 组 合 现 值 的 频率 分 布 。 这 是 采用 其 他 方 
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法 ( 如 应 用 分 析 公 式 或 者 二 项 式 期 权 定 价 模型 ) 通常 不 可 能 生成 的 。 设 置 参 数 
full=True 可 以 在 现 值 估算 之 后 按照 期 权 头 寸 返 回 完整 的 一 组 现 值 : 


In [133]: pvl = 5 * port corr.valuation objects['eur call pos'].\ 
present value (full=True) [1] 

pvl 

Out[133]: array([ 0. z 39.71423714, 24.90720272, ..., 0. , 

6.42619093, 8.15838265]) 


In [134]: pv2 = 3 * port_corr.valuation_objects['am_put_pos'].\ 
present_value (full=True) [1] 
pv2 
Out [134]: array([21.31806027, 10.71952869, 19.89804376, ..., 21.39292703, 
17.59920608, 0. ] ) 


首先 ， 我们 比较 两 种 头寸 的 频率 分 布 。 如 图 20-3 所 示 ， 两 种 头 二 的 收益 剖面 有 很 大 不 
同 。 注 意 ,为 了 更 好 的 可 读 性 ， 我 们 限制 了 x 和 y 轴 : 


In [135]: plt.figure(figsize=(10, 6)) 
plt.hist([pvl, pv2], bins=25, 








label=['European call', ‘American put']); 
plt.axvline(pvl.mean(), color='r', ls='dashed', 

lw=1.5, label='call mean = %4.2f' % pvl.mean() ) 
plt.axvline(pv2.mean(), color='r', ls='dotted', 

lw=1.5, label='put mean = %4.2f' % pv2.mean() ) 
plt.xlim(0, 80); plt.ylim(0, 10000) 


plt.legend(); 
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20-3 ”两 种 头寸 现 值 的 频率 分 布 
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20-4 显示 了 投资 组 合 现 值 的 全 部 频率 分 布 ， 可 以 清晰 地 看 到 组 合 看 涨 和 看 跌 期 权 的 





多 样 化 对 冲 效 应 : 
In [136]: pvs = pvl + pv2 
plt.figure (figsize=(10, 6)) 
plt.hist (pvs, bins=50, label="portfolio'); 
plt.axvline(pvs.mean(), color='r', ls='dashed', 
lw=1.5, label='mean = %4.2f' % pvs.mean() ) 
plt.xlim(0, 80); plt.ylim(0, 7000) 
plt.legend(); 
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以 限制 标准 差 为 度量 指标 ， 两 种 风险 因素 之 间 的 相关 性 对 投资 组 合 的 风险 有 何 影 响 ? 
这 个 问题 可 以 用 以 下 两 种 估算 来 回答 : 


In [137]: pvs.std() © 
16.723724772741118 


Out [137]: 


In [138]: 


Out [138]: 


pvl 


pv2 


(5 * portfolio.valuation_objects['eur_call_pos']. 
present_value (full=True) [1]) 

= (3 * portfolio.valuation_objects['am_put_pos']. 

present_value (full=True) [1]) 


(pvl + pv2).std() @ 
21.80498672323975 


O 有 相关 投资 组 合 价值 标准 差 。 
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@ 无 相关 投资 组 合 价值 标准 差 。 


虽然 均值 保持 恒定 (忽略 数值 化 误差 )， 但 在 这 种 计量 方式 下 ， 相 关 性 明显 降低 了 投资 
组 合 风险 。 同 样 ， 这 是 使 用 其 他 数值 化 方法 或 者 估 值 方法 不 可 能 得 到 的 认识 。 























20.3 ”结语 


本 章 介 绍 衍生 品 头 寸 投 资 组 合 的 佑 值 和 风险 管理 ， 这 种 投资 组 合 依 赖 多 种 可 能 相关 的 
风险 因素 。 为 此 , 我 们 引入 了 一 个 新 类 derivatives_position 以 建立 期 权 / 衍 生 品 
头寸 的 模型 。 但 是 ， 主 要 的 焦点 要 放 在 derivatives_portfolio X, 该 类 实现 了 
一 些 相 当 复 杂 的 任务 。 该 类 负责 以 下 工作 : 

。 ”风险 因素 之 间 的 相关 性 ( 该 类 为 所 有 风险 因素 的 模拟 生成 一 组 一 致 性 的 随机 数 ); 

。 在 单一 市 场 环境 和 一 般 估 值 环境 以 及 衍生 品 头 寸 下 的 模拟 对 象 实例 化 ; 

。 ”根据 所 有 假设 、 涉 及 风险 因素 和 衍生 品 头寸 生成 投资 组 合 统 计量 。 

本 章 介 绍 的 例子 只 能 展示 可 由 DX 库 和 derivatives_portfolio 类 管理 和 估 值 的 
简单 衍生 品 投资 组 合 。 对 DX 库 的 自然 扩展 应 该 添加 更 复杂 的 金融 模型 ， 例 如 随机 波 
动 率 模型 ， 并 添加 多 重 风险 估 值 类 以 建立 依赖 多 种 风险 因素 的 衍生 品 ( 如 欧洲 一 揽 子 
期 权 或 者 美国 最 大 看 涨 期 权 ) 模 型 并 为 之 估 值 。 在 这 一 阶段 , 和 资产 定价 基本 定理 (“全 
局 估 值 ”) 一 样 通用 的 模块 化 建 模 以 及 估 值 框架 应 用 展现 出 优势 : 风险 因素 的 非 元 余 建 
模 以 及 对 风险 因素 之 间 相 关 性 的 考虑 ， 也 影响 着 多 风险 衍生 品 的 价值 和 “希腊 字母 ”。 


下 面 是 最 终 的 包装 器 模块 ， 在 单条 import 语句 中 组 合 了 DX 分 析 库 的 所 有 组 件 : 


# 

# DX Package 

# 

# All components 

# 

# dx package.py 

# 

# Python for Finance, 2nd ed. 
# (c) Dr. Yves J. Hilpisch 

# 


from dx_valuation import * 



























































from derivatives_position import derivatives_position 


from derivatives_portfolio import derivatives_portfolio 
下 面 是 dx 文件 夹 中 __init__.py 文件 的 完整 内 容 : 


# 
# DX Package 
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# packaging file 

# _init__.py 

# 

import numpy as np 
import pandas as pd 
import datetime as dt 


# frame 

from get_year_deltas import get_year_deltas 

from constant_short_rate import constant_short_rate 
from market_environment import market_environment 


from plot_option_stats import plot_option_stats 


# simulation 
from sn_random_numbers import sn_random_numbers 


from simulation_class import simulation_class 


from geometric_brownian_motion import geometric_brownian_motion 


from jump_diffusion import jump_diffusion 
from square_root_diffusion import square_root_diffusion 


# valuation 
from valuation_class import valuation_class 
from valuation_mcs_european import valuation_mcs_european 


from valuation_mcs_american import valuation_mcs_american 
# portfolio 


from derivatives_position import derivatives_position 


from derivatives_portfolio import derivatives_portfolio 


20.4 延伸 阅读 


和 前 面 关 于 DX 衍生 品 分 析 库 的 内 容 一 样 ，Glasserman ( 2004 ) 提供 了 金融 工程 和 应 用 
中 关于 蒙特 卡 洛 模拟 的 比较 全 面 的 分 析 。Hilpisch ( 2015 ) 也 提供 了 非常 重要 的 蒙特 卡 








党 算法 基于 Python 的 实现 : 


e Glasserman, Paul (2004). Monte Carlo Methods in Financial Engineering. New York: 


Springer. 


e Hilpisch, Yves (2015). Derivatives Analytics with Python. Chichester, England: Wiley 


Finance. 


但 是 ， 利 用 蒙特 卡 洛 模 拟 ， 以 一 致 、 无 元 余 的 方式 估算 〈 复杂 ) 衍生 品 投资 组 合 价值 
方面 没有 太 多 研究 。 值 得 注意 的 一 个 例外 (至少 从 概念 上 讲 ) 是 Albanese 、Gimonet 














20.4 f 
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和 White ( 2010a ) 的 简短 论文 。 这 几 位 作者 组 成 的 同一 团队 所 撰写 的 白皮书 更 详细 
一 些 : 


Albanese, Claudio, Guillaume Gimonet and Steve White (2010a). “Towards a Global 
Valuation Model” . Risk Magazine, Vol. 23, No. 5, pp. 68-71. 


Albanese, Claudio, Guillaume Gimonet and Steve White (2010b). “Global Valuation 
and Dynamic Risk Management” . Working paper. 
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第 21 章 


WUUUUUU 





我 们 正面 对 着 极端 的 波动 性 。 
一 一 卡 洛 斯 。 久 恩 





基于 市 场 的 非 流动 性 交易 期 权 及 衍生 品 估 值 是 衍生 品 分 析 的 一 项 重要 任务 。 为 此 ， 人 
们 通常 要 根据 流动 性 交易 期 权 的 市 场 报 价 验证 定价 模型 ， 然 后 使 用 经 过 验证 的 模型 为 
非 交易 期 权 定价 。， 
本 章 介 绍 基于 DX 库 的 一 个 案例 ， 说 明 这 个 在 前 4 章 中 逐步 开发 的 库 适 合 于 实施 基于 
市 场 的 估 值 。 本 案例 以 DAX30 股票 指数 为 基础 ， 该 指数 是 由 30 家 德国 大 公司 股票 组 
成 的 蓝筹 股市 场 指数 。 市 场 上 有 以 这 个 指数 为 标的 的 流动 交易 欧式 看 涨 及 看 跌 期 权 。 
本 章 分 成 以 下 几 个 部 分 。 
FIR HIE 
我 们 需要 两 类 数据 ,， 即 DAX30 股票 指数 本 身 的 数据 ， 以 及 该 指数 的 流动 交易 欧式 
期 权 数 据 。 
PEALE TE 
为 了 以 和 市 场 一 致 的 方式 估算 非 交 易 期 权 ， 通 常 首先 用 期 权 报价 检验 所 选择 的 模 
型 ， 证 明基 于 最 优 参数 的 模型 会 尽 可 能 地 复制 市 场 价 格 。 
LER AAA MEE 
有 了 上 述 的 所 有 数据 和 经 过 市 场 检 验 的 DAX 30 指数 模型 后 , 最 后 一 项 任务 是 建 
立 非 交 易 权 证 的 模型 并 为 之 估 值 ; 还 要 根据 头寸 和 投资 规模 估算 重要 风险 测度 。 








































































































1 详 见 Hilpisch (2015 )。 一 一 原 注 
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本 章 使 用 的 指数 与 期 权 数 据 来 自 Thomson Reuters Eikon Data API (参见 21.4 47 )。 


21.1 





期 权 数 据 


首先 是 必要 的 导入 与 设置 : 


Em [| 





import numpy as np 
import pandas as pd 
import datetime as dt 





















































In [2]: from pylab import mpl, plt 
plt.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 
In [3]: import sys 
sys.path.append('../') 
sys.path.append('../dx') 
利用 21.4 节 中 创建 的 数据 文件 ,用 pandas 读 取 期 权 数 据 ， 并 将 其 中 的 日 期 信息 处 理 为 
pd.Timestamp 对 象 , 
In [4]: dax = pd.read_csv('../../source/tr_eikon_option_data.csv', 
index _col=0) © 
In [5] for col in ['CF_DATE', 'EXPIR_DATE']: 
dax[col] = dax[col].apply(lambda date: pd.Timestamp(date)) @ 
In [6]: dax.info() ® 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 115 entries, 0 to 114 
Data columns (total 7 columns): 
Instrument L115 non-null object 
CF_DATE 115 non-null datetimeé4 [ns] 
EXPIR_DATE 114 non-null datetime6é4 [ns] 
PUTCALLIND L4 non-null object 
STRIKE PRC 114 non-null float64 
CF_CLOSE 115 non-null float64 
IMP_VOLT 114 non-null float64 
dtypes: datetimeé4[ns] (2), float64(3), object (2) 
memory usage: 7.2+ KB 
In [7]: dax.set_index('Instrument').head(7) © 
Out [7]: 
CF_DATE EXPIR DATE PUTCALLIND STRIKE PRC CF_CLOSE \ 
Instrument 
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.GDAXI 2018-04-27 NaT NaN NaN 12500.47 

GDAX105000G8.EX 2018-04-27 2018-07-20 CALL 10500.0 2040.80 

GDAX105000S8.EX 2018-04-27 2018-07-20 PUT 10500.0 32.00 

GDAX108000G8.EX 2018-04-27 2018-07-20 CALL 10800.0 1752.40 

GDAX108000S8.EX 2018-04-26 2018-07-20 PUT 10800.0 43.80 

GDAX110000G8.EX 2018-04-27 2018-07-20 CALL 11000.0 1562.80 

GDAX110000S8.EX 2018-04-27 2018-07-20 PUT 11000.0 54.50 
IMP_VOLT 

Instrument 

.GDAXI NaN 

GDAX105000G8 .EX 2359 

GDAX105000S8.EX 23.59 

GDAX108000G8.EX 22.02 

GDAX108000S8.EX 22.02 

GDAX110000G8.EX 21.00 

GDAX110000S8.EX 21.00 


@ 用 pd.reagd_csv() 读 取 数 据 。 
@ 处 理 包含 数据 信息 的 两 列 。 
© 得 到 的 DataFrame 对 象 。 


下 面 的 代码 在 一 个 变量 中 保存 DAX 30 相关 指数 水 平 ,并 创建 两 个 新 的 DataFrame 对 
R, 一 个 用 于 看 涨 期 权 ， 男 一 个 用 于 看 跌 期 权 。 图 21-1 显示 了 看 涨 期 权 的 市 场 报价 以 
及 隐 合 波动 率 : | 


In [8]: initial value = dax.iloc[0]['CF_CLOSE'] © 




















In [9]: calls = dax[dax['PUTCALLIND'] == 'CALL'].copy() @ 
puts = dax[dax['PUTCALLIND'] == 'PUT '].copy() @ 
In [10]: calls.set_index('STRIKE_PRC') [['CF_CLOSE', 'IMP_VOLT']].plot ( 


secondary y='IMP VOLT', style=['bo', 'rv'], figsize=(10, 6)); 
O 将 相关 指数 水 平 赋 给 initial_value 变量 。 

@ 将 看 涨 与 看 跌 期 权 数 据 分 到 两 个 新 的 DataFrame 对 象 中 。 

21-2 显示 看 跌 期 权 的 市 场 报 价 及 隐 含 波动 率 ; 


In [11]: ax = puts.set_index('STRIKE_PRC') [['CF_CLOSE', 'IMP_VOLT"']] .plot ( 
secondary_y='IMP_VOLT', style=['bo', 'rv'], figsize=(10, 6)) 
ax.get_legend() .set_bbox_to_anchor((0.25, 0.5)); 


























1 期 权 的 隐 含 波动 率 是 在 其 他 条 件 不 变 的 情况 下 ， 用 Black-Scholes-Merton(1973) 期 权 定价 公式 得 出 的 
期 权 市 场 报价 的 波动 率 值 。 一 一 原 注 
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21.2 


21-2 DAX 30 欧式 看 跌 期 权 市 场 报价 与 隐 含 波动 率 


模型 检验 


本 节选 择 相关 的 市 场 数据 来 建立 DAX 30 指数 欧式 期 权 模型 ， 并 检验 本 身 的 规程 。 





610 


第 21 章 ”基于 市 场 的 估 值 











21.2.1 相关 市 场 数据 


模型 检验 通常 在 可 用 期 权 市 场 报价 的 较 小 子 集 上 进行 。 为 此 ， 以 下 代码 只 选择 行 权 价 
相对 接近 当前 指数 水 平 的 欧式 看 涨 期 权 ( 见 图 21-3 )。 换 言 之 ， Re 
内 或 者 价 外 欧式 看 涨 期 权 : 


In [12]: limit = 500 © 























In [13]: option selection = calls[abs(calls['STRIKE_PRC'] - initial_value) 
< limit].copy() @ 


In [14]: option_selection.info() ® 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 20 entries, 43 to 81 


Data columns (total 7 columns): 























Instrument 20 non-null object 

CF_DATE 20 non-null datetimeé4 [ns] 
EXPIR_DATE 20 non-null datetimeé4 [ns] 
PUTCALLIND 20 non-null object 

STRIKE PRC 20 non-null float64 

CF_CLOSE 20 non-null float64 

IMP_VOLT 20 non-null float64 

dtypes: datetimeé4[ns] (2), float64(3), object (2) 


memory usage: 1.2+ KB 















































In [15]: option_selection.set_index('Instrument').tail() © 
Out [15]: 
CF DATE EXPIR DATE PUTCALLIND STRIKE PRC CF CLOSE \ 
Instrument 
GDAX128000G8.EX 2018-04-27 2018-07-20 CALL 12800.0 182.4 
GDAX128500G8.EX 2018-04-27 2018-07-20 CALL 12850.0 162.0 
GDAX129000G8.EX 2018-04-25 2018-07-20 CALL 12900.0 142.9 
GDAX129500G8.EX 2018-04-27 2018-07-20 CALL 12950.0 125.4 
GDAX130000G8.EX 2018-04-27 2018-07-20 CALL 13000.0 109.4 
IMP_VOLT 
Instrument 
GDAX128000G8 .EX 12.70 
GDAX128500G8 .EX 12.552 
GDAX129000G8.EX 12.36 
GDAX129500G8 .EX 12.21 
GDAX130000G8.EX 12.06 





— 
sk 


PUL Hilpisch (2015) 的 第 11 章 。 一 一 原 注 
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In [16]: option_selection.set_index('STRIKE_PRC') [['CF_CLOSE', 'IMP_ 
VOLT']].plot ( 
secondary_y='IMP_VOLT', style=['bo', 'rv'], figsize=(10, 6)); 


O 设置 Limit 值 ， 表 示 行 权 价 与 当前 指数 水 平 的 偏差 范围 ( 货币 性 条 件 )。 
@ 根据 limit 值 选 择 包含 在 检验 中 的 欧式 看 涨 期 权 。 
© 包含 用 于 检验 的 欧式 看 涨 期 权 的 DataFrame 对 象 。 
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21-3 ”用 于 模型 检验 的 DAX 30 欧式 看 涨 期 权 


21.2.2 期权 建 模 


定义 了 相关 市 场 数据 后 ， 我 们 现在 可 以 用 DX 库 建 立 欧式 看 涨 期 权 的 模型 了 。 下 面 是 建 
立 DAX 30 指数 模型 的 dx.market_environment 对 象 定 义 ， 与 前 面 几 章 的 例子 相似 : 





In [17]: import dx 


In [18]: pricing_date = option_selection['CF_DATE'] .max() 0 


In [19]: me dax = dx.market_environment ('DAX30', pricing date) © 


In [20]: maturity = pd.Timestamp(calls.iloc[0]['EXPIR_DATE']) ® 

















In [21]: me dax.add constant (‘initial value', initial value) ©@ 
me dax.add constant ('final_date', maturity) ® 
me dax.add constant ('currency', 'EUR') © 





AAA 





Ti 
= 
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In [22]: me dax.add constant ('frequency', 'B') © 
me_dax.add constant ('paths', 10000) © 


In [23]: csr = dx.constant short _rate('csr', 0.01) © 


me _dax.add_curve('discount_curve', csr) © 








@ 按照 期 权 数 据 定 义 初始 值 或 者 定价 日 期 。 

@ 实例 化 dx .market_environment 对 象 。 

© 按照 期 权 数 据 定 义 到 期 日 。 

@ 添加 模型 基本 参数 。 

@ 添加 模拟 相关 参数 。 

O 定义 并 添加 一 个 dx.constant_short_rate WE, 

然后 , 以 下 代码 为 dx. jump_diffusion 类 添加 模型 特定 参数 , 并 实例 化 对 应 的 模拟 对 象 : 


In [24]: me dax.add constant ('volatility', 0.2) 
'lambda', 0.8) 
‘min; "0: 2) 


“dettat; 0.1) 


me dax.add constant 
me dax.add constant 


me dax.add constant 


In [25]: dax model = dx.jump diffusion('dax model', me dax) 


以 欧式 看 涨 期 权 为 例 , 考虑 如 下 参数 , 行 权 价 设置 为 与 DAX 30 指数 水 平 相等 的 值 。 这 
就 可 以 进行 基于 蒙特 卡 洛 模拟 的 第 一 次 估 值 了 : 


In [26]: me dax.add constant ('strike', initial value) © 




















me dax.add constant ('maturity', maturity) 
In [27]: payoff func = 'np.maximum(maturity_value - strike, 0)' @ 


In [28]: dax_eur_call = dx.valuation_mcs_european ('dax_eur_call', 
dax_model, me_dax, payoff_func) ® 


In [29]: dax_eur_call.present_value() © 
Out [29]: 654.298085 








让 strike 值 与 initial_value 的 值 相等 。 
为 欧式 看 涨 期 权 定 义 收益 函数 。 
实例 化 估 值 对 象 。 

实例 化 模拟 与 估 值 。 





© © © © 
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类 似 地 ， 我 们 可 以 为 所 有 相关 的 DAX 30 指数 欧式 看 涨 期 权 定义 估 值 对 象 。 参 数 中 唯一 
改变 的 是 行 权 价 : 


In [30]: option_models = {} @ 
for option in option_selection.index: 
strike = option_selection['STRIKE_PRC'].loc[option] @ 
me dax.add_ constant ('strike', strike) @ 





option_models[strike] = dx.valuation_mcs_european ( 


2 


"eur call %d' % strike, 
dax_model, 
me_dax, 


payoff func) 


o 估 值 对 象 被 收集 在 一 个 字典 对 象 中 。 
O 选择 相关 行 权 价 ， 在 dx.market_environment 对 象 中 (重新 ) 定义 。 


现在 ， 以 所 有 相关 期 权 的 估 值 对 象 为 基础 ，calculate_model_values () 函数 取得 
了 一 组 模型 特定 参数 值 p0 ， 并 返回 所 有 期 权 的 模型 值 : 


In [32]: def calculate model values (P0) : 

















''' Returns all relevant option values. 


Parameters 


p0: tuple/list 
tuple of kappa, theta, volatility 


Returns 


model_values: dict 
dictionary with model values 
ver 
volatility, lamb, mu, delta = p0 
dax_model.update(volatility=volatility, lamb=lamb, 
mu=mu, delta=delta) 
return { 
strike: model.present_value (fixed_seed=True) 
for strike, model in option_models.items () 


In [33]: calculate model values((0.1, 0.1, -0.4, 0.0)) 
Out [33]: {12050.0: 611.222524, 


12100.0: 571.83659, 
12150.0: 533.595853, 
12200.0: 496.607225, 
12250.0: 460.863233, 
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12300.0: 426.543355, 
12350.0: 393.626483, 
12400.0: 362.066869, 
12450.0: 331.877733, 
12500.0: 303.133596, 
12550.0: 275.987049, 
12600.0: 250.504646, 
12650.0: 226.687523, 
12700.0: 204.550609, 
12750.0: 184.020514, 
12800.0: 164.945082, 
12850.0: 147.249829, 
12900.0: 130.831722, 
12950.0: 115.681449, 
13000.0: 101.917351} 





如 下 所 述 ， 在 检验 过 程 中 我 们 使 用 了 calculate_model_values () 函数 。 


21.2.3 ”检验 过 程 

期 权 定 价 模型 的 检验 通常 是 一 个 凸 优化 问题 。 广 为 使 用 的 检验 函数 〈 最 小 化 某 些 误差 
函数 值 ) 是 给 定期 权 报 价 下 模型 期 权 价值 的 均 方差 ( MSE )。 假定 有 N 个 相关 期 权 、 
模型 和 市 场 报价 , 则 以 MSE 为 基础 、 用 市 场 报价 检验 金融 模型 的 问题 可 以 用 公式 21-1 
RR WP, CAC 是 第 n 个 期 权 的 市 场 价格 和 模型 价格 。p 是 作为 期 权 定价 模型 
输入 的 参数 集 。 


公式 21-1 根据 均 方差 检验 模型 















































|] 
ee C = CX 
min 2 (C, Cr" (P) 


n=l 





Python 函数 mean_squared_error () 从 技术 上 实现 了 这 种 模型 检验 方法 ， 该 函数 使 
用 全 局 变量 i 来 控制 中 间 参 数 元 组 对 象 和 结果 MSE 的 输出 : 


In [34]: i= 0 
def mean_squared_error(p0): 














''' Returns the mean-squared error given 


the model and market values. 


Parameters 


p0: tuple/list 
tuple of kappa, theta, volatility 














1 定义 检验 过 程 的 目标 函数 有 多 种 蔡 代 方法 。 这 个 主题 的 讨论 参见 Hilpish(2015) 第 11 章 。 一 一 原 注 
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Returns 


MSE: float 


mean-squared error 


one 


global i 

model values = np.array (list ( 
calculate_model_values(p0).values()))@® 

market_values = option_selection['CF_CLOSE'].values@® 





option_diffs = model_values - market_values® 
MSE = np.sum(option_diffs xx 2) / len(option_diffs)@® 





if i % 75 == 
if i == 
print ('s4s %6s %6s %6s %6S 一 -> %6s' % 


('i', 'vola', 'lambda', 'mu', 'delta', 'MSE")) 
print ('%4d %6.3f %6.3f %6.3f %6.3f 一 -> %6.3f' % 
(i, pO[0], pO[1], pO[2], pO[3], MSE) ) 





i += 1 
return MSE 


In [35]: mean squared error((0.1, 0.1, -0.4, 0.0)) © 
T vola lambda mu delta 一 一 > MSE 
0 0.100 0.100 -0.400 0.000 --> 728.375 


OUE[35] 3 728..3752973 715275 
@ 估算 一 组 模型 价值 。 

@ 选 出 市 场 报价 。 

O 逐个 元 素 地 计算 两 者 之 间 的 差 值 。 
@ 计算 误差 值 的 均 方 根 。 

@ 根据 样本 参数 表示 这 种 计算 。 


第 11 章 介 绍 了 用 于 实现 检验 过 程 的 两 个 函数 ( spo .brute () 和 spo.fmin() ), 首 先 ， 
根据 4 个 模型 特定 参数 值 的 范围 进行 全 局 最 小 化 。 结 果 是 在 暴力 最 小 化 期 间 检 查 的 所 
有 参数 组 合 中 最 优 的 那个 : 














In [36]: import scipy.optimize as spo 
In [37]: %%time 
i=0 


opt_global = spo.brute(mean_squared_error, 
((0.10, 0.201, 0.025), # range for volatility 
(0.10, 0.80, 0.10), # range for jump intensity 
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In [38]: 
Out [38]: 





(-0.40, 0.01, 0.10) 
(0.00, 0.121, 0.02) 
finish=None) 
i vola lambda mu delta 
0 0.100 0.100 -0.400 0.000 
75 0.100 0.300 -0.400 0.080 
150 0.100 0.500 -0.300 0.040 
225 0.100 0.700 -0.200 0.000 
300 0.125 0.200 -0.200 0.100 
375 0.125 0.400 -0.100 0.060 
450 0.125 0.600 0.000 0.020 
525 0.150 0.100 0.000 0.120 
600 0.150 0.400 -0.400 0.080 
675 0.150 0.600 -0.300 0.040 
750 0.175 0.100 -0.200 0.000 
825 0.175 0.300 -0.200 0.100 
900 0.175 0.500 -0.100 0.060 
975 0.175 0.700 0.000 0.020 
1050 0.200 0.200 0.000 0.120 
1125 0.200 0.500 -0.400 0.080 
1200 0.200 0.700 -0.300 0.040 
CPU times: user lmin 45s, sys: 7.0 
Wall time: lmin 56s 


mean_squared_error (opt global) 
17.946670038040985 

















# range for average jump size 


了 
), # range for jump variability 


==> MSE 
—-> 728.375 
=-35157 5513 
—-> 12199.386 
—-> 6904.932 
—-> 855.412 
—-> 621.800 
—-> 544.137 
—-> 3410.776 
—-> 46775.769 
==>: 56331.321 
==> 14562.213 
—-> 24599.738 
--> 19183.167 
—-> 11871.683 
—-> 31736.403 
==> 130372.718 
—-> 126365.140 
7 s, total: lmin 52s 








opt_global 值 只 是 中 间 结 果 , 是 局 部 最 小 化 的 起 始 值 。 在 给 定 的 参数 下 , opt_global 




















值 是 假定 容 限 下 的 最 终 和 最 优 值 : 


In [39]: 


SStime 
i= 0 


opt_local = 


i. 

0 
75 
150 


vola 
0.100 
0.098 
0.098 


spo.fmin(mean_squared_error, opt_global, 
xtol=0.00001, ftol=0.00001, 


lambda 


0. 
0. 
0. 


200 
216 
216 


maxiter=200, 


mu 
-0.300 
-0.302 
-0.300 


del 
0.0 
-0.0 
-0.0 


maxfun=550) 

ta 二 三 学 MSE 
00 --> 17.947 
01 --> 7.885 
01 --> 7.371 





Optimization terminated successfully. 


Wall t 


Current function value: 


Iterations: 


100 


Function evaluations: 18 
CPU times: 


ime: 


user 15.6 s, 
16.7 s 


sys: 


1.03 


7.371163 


8 
s, total: 16.6 s 
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In [40]: i = 0 


mean squared error (opt local) 0 


i 
0 


vola 


0.098 


lambda mu delta 


Out [40]: 7.371162645265256 





In [41]: calculate_model_values(opt_local) @ 

Out [41]: {12050.0: 647.428189, 
12100.0: 607.402796, 
12150.0: 568.46137, 
12200.0: 530.703659, 
12250.0: 494.093839, 
12300.0: 458.718401, 
12350.0: 424.650128, 
12400.0: 392.023241, 
12450.0: 360.728543, 
12500.0: 330.727256, 
125500% "302; 117223; 
12600.0: 274.98474, 
12650.03- 249.501807; 
12700.0: 225.678695, 
12750.0: 203.490065, 
12800.0: 182.947468, 
12850.0: 163.907583, 
12900.0: 146.259349, 
12950.0: 129.909743, 
13000.0: 114.852425} 


@ 最 优 参 数值 下 的 误差 均 方 根 。 
@ 给 定 最 优 参数 下 的 模型 价值 。 


接 下 来 ， 我 们 比较 最 优 参数 模型 价值 与 市 场 报价 ， 计 算 模型 价值 与 市 场 报价 之 间 的 绝 
对 差 值 ， 并 得 出 它 与 市 场 价值 的 差异 比例 : 


In [42]: option_selection['MODEL'] = np.array (list (calculate_model_values ( 





pias MSE 
0.216 -0.300 -0.001 --> 7.371 


opt_local) .values ( 


) ) ) 


option_selection['ERRORS_EUR'] = (option_selection['MODEL'] - 


option_selection['CF_CLOSI 





E']) 











option_selection['ERRORS_%'] = (option_selection['ERRORS_EUR'] / 
option_selection['CF_CLOSE']) * 100 


In [43]: option_selection[['MODEL', 'CF_CLOSE', 


Out [43]: 


MODI 
43 647.428189 





EL CF CLOSE 











"ERRORS | 














ERRORS_EUR ERRORS_% 





642.6 4.828189 


0.751352 


EUR', 'ERRORS 3']] 
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45 607.402796 604. 
47 568.461370 567. 
49 530.703659 530. 
51 494.093839 494. 
53 458.718401 460. 
55 424.650128 426. 








57 392.023241 394. T7237 O19 =O: 
59 360.728543 363. -2.571457 -0. 
61 330.727256 333 3 -2.572744 -0. 
63 302.117223 304. -682777 -0. 
65 274.984740 2 Tes -2.515260 -0. 
67 249.501807 251. “2r L98 L93 =0.. 
69 225.678695 227. =e. 621305)--0% 
71 203.490065 204. -0.609935 -0. 


73 182.947468 182. 
75 163.907583 162. 
77 146.259349 142. 
79 129.909743 125. 
81 114.852425 109. 


-547468 
- 907583 


-509743 
.452425 


A PO CO FFP WA OW WwW BF OW O FP FP BD 
| 
N 


3.002796 0. 
1.361370 0. 
0.303659 0. 
-0.706161 -0O. 
HAVO 81T599:-—-0.. 
-2.149872 -0. 


0 0 
1 1 
3.359349 2. 
4 3 
5 4 


496823 
240058 
057251 
142716 
343602 
503719 
602627 
707805 
771900 
880176 
906400 
873338 
713289 
298841 
- 300147 
.177520 
350839 
-596286 
- 983935 


In [44]: round(option_selection['ERRORS_EUR'].mean(), 3) © 





Out [44]: 0.184 





In [45]: round(option_selection['ERRORS_%'].mean(), 3) @ 


Out [45]: 0.36 
O 以 欧元 表示 的 平均 价差 。 

@ 以 百分比 表示 的 平均 价差 。 
21-4 可 视 化 了 估 值 结果 与 误差 : 








In [46]: fix, (axl, ax2, ax3) = plt.subplots(3, sharex=True, figsize=(10, 


strikes = option_selection['STRIKE_PRC'].values 


axl.plot (strikes, option_selection['CF_CLOS 


10) ) 


E'], label='market quotes") 





axl.plot (strikes, option_selection[' 
model values') 

axl.set_ylabel('option values") 

axl1.legend (loc=0) 

wi = 15 





ODEL'], 'ro', label=' 














ax2.bar (strikes - wi / 2., option_selection['ERRORS_EUR'], width=wi) 





ax2.set_ylabel('errors [EUR] "') 


ax3.bar (strikes - wi / 2., option_selection['ERRORS_%'], width=wi) 


ax3.set_ylabel('errors [%]') 
ax3.set_xlabel('strikes'); 
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200 
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strikes 


errors [EUR] 
© 








图 21-4 检验 后 的 模型 价值 和 市 场 报价 


检验 速度 

按照 市 场 数据 检验 期 权 定价 模型 ,通常 需要 重新 计算 数 百 个 甚至 数 千 
个 期 权 价 值 。 因 此 ， 计 算 通 常 是 根据 分 析 定价 公式 进行 的 。 这 里 ， 检 
验 过 程 依赖 蒙特 卡 洛 模 拟 作 为 定价 方法 , 该 方法 在 计算 要 求 上 高 于 分 
MAK. 不过， 检验 过 程 即便 在 典型 的 笔记 本 电脑 上 也 不 会 “花费 太 
长 时 间 ”。 例 如 ， 使 用 并 行 化 技术 可 以 显著 加 快 检验 速度 。 





21.3 投资 组 合 估 值 
配备 了 反映 金融 市 场 现实 、 经 过 检验 的 模型 ( 由 流动 交易 期 权 表 示 ) 后 ， 我 们 就 可 以 
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建立 非 交 易 期 权 及 衍生 品 的 模型 并 为 其 估 值 了 。 思 路 是 检验 通过 最 优 参数 ， 在 模型 中 
“注入 ”了 正确 的 风险 中 立 款 测度 。 根 据 这 一 测度 ， 我 们 可 以 将 资产 定价 基本 定理 的 机 
制 应 用 到 其 他 (未 用 于 检验 的 ) 未 定 权 益 上 。 

AWARE DAX 30 指数 美式 看 跌 期 权 的 一 个 投资 组 合 。 交 易 所 没有 连续 进行 此 类 期 权 的 
交易 。 简 单 起 见 ， 假 定 美式 看 跌 期 权 的 到 期 日 与 用 于 检验 的 欧式 看 涨 期 权 相 同 ， 并 假 
定 行 权 价 也 一 样 。 


21.3.1 建立 期 权 头 寸 模型 
首先 , 使 用 检验 所 用 的 最 优 参数 来 建立 标的 风险 因素 ( DAX 30 指数 ) 市场 环境 的 模型 


In [47]: me_dax = dx.market_environment ('me_dax', pricing_date) 























TT 








me dax.add constant ('initial value', initial value) 
me_dax.add_constant ('final_date', pricing_date) 





me_dax.add_constant ('currency', 'EUR') 


('volatility', opt_local[0]) © 
("‘lambda', opt_local[1]) © 
('mu', opt_local[2]) © 
('delta', opt_local[3]) © 


In [48]: me dax.add constant 


me dax.add constant 





me dax.add constant 
me_dax.add_constant 





In [49]: me_dax.add_constant('model', 'jd') 
@ 添加 来 自 检验 的 最 优 参数 。 
其 次 ， 定 义 期 权 头 寸 和 相关 环境 ， 并 将 它们 保存 在 两 个 单独 的 字典 对 象 中 


In [50]: payoff func = 'np.maximum(strike - instrument_values, 0)' 





In [51]: shared = dx.market_environment ('share', pricing date) © 
shared.add constant ('maturity', maturity) © 
shared.add constant ('currency', 'EUR') © 


In [52]: option_positions = {} 
option_environments = {} 
for option in option_selection.index: 
option_environments [option] = dx.market_environment ( 
‘am put_%d' % option, pricing date) @ 
strike = option_selection['STRIKE_PRC'].loc[option] ® 





option environments [option] .add constant ('strike', strike) © 
option environments [option] .add environment (shared) © 


o 


option_positions['am put_%d' % strike] = \ 





dx.derivatives_position ( 


"am Put %d' % strike, 
quantity=np.random.randint (10, 50), 
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underlying='dax_model', 
mar_env=option_environments[option], 
otype='American', 
payoff_func=payoff_func) ® 


O 定义 共享 的 dx .market_environment 对 象 ， 将 其 作为 所 有 期 权 特定 环境 的 基础 。 
@ 为 相关 美式 看 跌 期 权 定义 并 保存 一 个 新 的 dx .market_environment 对 象 。 
© 为 期 权 定义 和 保存 行 权 价 参 数 。 

O 将 来 自 共享 的 dx .market_environment 对 象 的 元 素 添 加 到 期 权 特 定 的 对 象 中 。 
@ 以 随机 数 定义 dx.derivatives_position WE, 


21.3.2 ”期 权 投 资 组 合 


为 了 给 所 有 美式 看 跌 权 证 的 投资 组 合 估 值 ， 我 们 需要 一 个 估 值 环境 。 它 包含 估算 头寸 
价值 和 风险 统计 量 的 主要 参数 : 


In [53]: val env = dx.market_environment ('val_env', pricing_date) 








val_env.add_constant ('starting_date', pricing _date) 
val_env.add constant ('final_date', pricing date) © 
val_env.add_curve('discount_curve', csr) 
val_env.add_constant ('frequency', 'B') 
val_env.add_constant ('paths', 25000) 


In [54]: underlyings = {'dax_model' : me_dax} @ 


In [55]: portfolio = dx.derivatives_portfolio('portfolio', option positions, 
val_env, underlyings) ® 


In [56]: %time results = portfolio.get_statistics (fixed_seed=True) 
CPU times: user lmin 5s, sys: 2.91 s, total: lmin 8s 


Wall time: 38.2 s 


In [57]: results.round(1) 


Out [57]: name quant. value curr. pos_value pos delta pos vega 
0 am put 12050 33-151;6 EUR 5002.8 -4.7 38206.9 
1 am put 12100 38 161.5 EUR 6138.4 =5%, .51365:2 
2 am put 12150 20 171.3 EUR 3426.8 =3 e3 278945 
3 am put 12200 12 183.9 EUR 2206.6 -2.2 18479.7 
4 am put 12250 37 197.4 EUR 7302.8 =o 5942395 
5 am put 12300 37 212.3 EUR 7853.9 -8.2 65911.9 
6 am put 12350 36 228.4 EUR 8224.1 -9.0 70969.4 
7 am put 12400 16 244.3 EUR 3908.4 -4.3 32871.4 
8 am put 12450 17 262.7 EUR 4465.6 =al 374572 
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9 am put 12500 16 283.4 EUR 4534.8 -5.2 36158.2 
10 am_put_12550 38 305.3 EUR 11602.3 -13.3 86869.9 
11 am_put_12600 10 330.4 EUR 3303.9 -3.9 22144.5 
12 am_put_12650 38 355.5 EUR 13508.3 -16.0 89124.8 
13 am put 12700 40 384.2 EUR 15367.5 -18.6 90871.2 
14 am_put_12750 13 413.5 EUR 5375.7 -6.5 28626.0 
15 am_put_12800 49 445.0 EUR 21806.6 -26.3 105287.3 
16 am put_12850 30 477.4 EUR 14321.8 -17.0 60757.2 
17 am put_12900 33 510.3 EUR 16840.1 -19.7 69163.6 
18 am_put_12950 40 544.4 EUR 21777.0 -24.9 80472.3 
19 am_put_13000 35 582.3 EUR 20378.9 -22.9 66522.6 
In [58]: results[['pos_value', 'pos_delta', 'pos_vega']].sum() .round(1) 
Out [58]: pos_value 197346.2 
pos_delta -224.0 
pos_vega 1138571.1 


dtype: float64 
O final_date 参数 后 来 被 重 置 为 组 合 中 所 有 期 权 的 最 后 到 期 日 。 
@ 组 合 中 的 美式 看 跌 期 权 标 的 都 是 同一 个 风险 因素 一 一 DAX 30 股票 指数 。 
© 实例 化 dx .derivatives_portfolio WR, 
因为 使 用 最 小 二 乘 蒙特 卡 治 方法 来 估算 多 种 美式 期 权 的 价值 ， 这 种 估算 的 计算 特别 密 


集 ， 所 以 ， 所 有 统计 量 的 估算 需要 花费 一 点 时 间 。 我 们 只 处 理 美式 看 跌 期 权 的 多 头头 
寸 ， 由 此 组 合 的 Delta 值 较 小 ，Vega 值 较 大 。 







































































21.4 Python 代码 
下 面 是 从 Eikon Data API 读 取 德国 DAX 30 股票 指数 期 权 数 据 的 代码 : 


In [1]: import eikon as ek © 








import pandas as pd 
import datetime as dt 
import configparser as cp 


In [2]: cfg = cp.ConfigParser () © 
cfg.read('eikon.cfg') @ 


Out[2]: ['eikon.cfg'] 


In [3]: ek.set_app_id(cfg['eikon']['app_id']) @ 














In [4]: fields = ['CF_DATE', 'EXPIR_DATE', 'PUTCALLIND', 
'STRIKE PRC', 'CF_CLOSE', 'IMP_VOLT'] © 
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In [5]: dax = ek.get_data('O#GDAXN8*.EX', fields=fields) [0] @ 


In [6]: dax.info() @ 





<class 'pandas.core.frame.DataFrame'> 


Data columns 
Instrument 
CF_DATI 
EXPIR DATE 
PUTCALLIND 
STRIKE PRC 
CF_CLOSE 
IMP VOLT 


GI 

















4 
L4 
114 
5 





5 


14 


non 


RangeIndex: 115 entries, 0 to 114 
(total 7 columns): 

11 
15 


-null object 


non-null object 


non-null object 





non-null object 
non-null float64 
non-null float64 
non-null float64 


dtypes: float64(3), o 
6.4+ KB 


memory usage: 











bject (4) 



























































In [7]: dax['Instrument'] = dax['Instrument'] .apply ( 
lambda x: x.replace('/', '')) © 

In [8]: dax.set_index('Instrument') .head(10) 

Out [8]: CF_DATE EXPIR DATE PUTCALLIND STRIKE PRC CF_CLOSE \ 
Instrument 
. GDAXI 2018-04-27 None None NaN 12500.47 
GDAX105000G8.EX 2018-04-27 2018-07-20 CALL 10500.0 2040.80 
GDAX105000S8.EX 2018-04-27 2018-07-20 PUT 10500.0 32.00 
GDAX108000G8.EX 2018-04-27 2018-07-20 CALL 10800.0 1752.40 
GDAX108000S8.EX 2018-04-26 2018-07-20 PUT 10800.0 43.80 
GDAX110000G8.EX 2018-04-27 2018-07-20 CALL 11000.0 1562.80 
GDAX110000S8.EX 2018-04-27 2018-07-20 PUT 11000.0 54.50 
GDAX111500G8.EX 2018-04-27 2018-07-20 CALL 11150.0 1422.50 
GDAX111500S8.EX 2018-04-27 2018-07-20 PUT 11150.0 64.30 
GDAX112000G8.EX 2018-04-27 2018-07-20 CALL 11200.0 1376.10 

IMP_VOLT 

Instrument 
.GDAXI NaN 
GDAX105000G8 .EX 23459 
GDAX105000S8.EX 2359 
GDAX108000G8 .EX 22.02 
GDAX108000S8.EX 22.02 
GDAX110000G8.EX 21.00 
GDAX110000S8.EX 21.00 
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GDAX111500G8.EX 20.24 


GDAX111500S8.EX 20.25 
GDAX112000G8.EX 19.99 
In [9]: dax.to_csv('../../source/tr_eikon_option_data.csv') @ 


导入 eikon Python 包装 器 库 。 
读 取 Eikon Data API 的 登录 凭据 。 
定义 读 取 的 数据 字段 。 

读 取 2018 年 7 月 到 期 的 期 权 数 据 。 
@ 用 人 金融 工具 名 称 代 葵 斜 杠 。 

O 将 数据 集 写 人 一 个 CSV 文件 。 





0 
© 
© 
9 





21.5 结语 


本 章 介绍 了 DX 分 析 库 更 大 规模 、 更 实际 的 用 例 一 一 估算 基于 德国 DAX 30 股票 指数 的 
非 交易 美式 期 权 投资 组 合 的 价值 。 本 章 介 绍 了 任何 实际 应 用 中 都 涉及 的 3 个 重要 任务 ， 
具体 如 下 。 


HERR 
最 新 、 正 确 的 市 场 数 据 是 任何 衍生 品 分 析 中 建 模 与 估 值 工作 的 基础 ; 我 们 需要 
DAX 30 指数 数据 以 及 期 权 数据 。 


ft Fl fi Te 
为 了 以 同市 场 一 致 的 方式 估 值 、 管 理 和 对 冲 非 交易 期 权 ， 我 们 需要 用 期 权 市 场 报 
价 (在 到 期 日 和 行 权 价 上 相对 应 ) 检验 模型 ( 模拟 对 象 ) 参数 。 我 们 选择 的 模型 
是 跳跃 扩散 ， 这 种 方法 在 某 些 情况 下 适合 建立 股票 指数 的 模型 。 检 验 结果 相当 不 
错 ， 但 是 模型 仅 提 供 3 种 自由 度 (lambda 是 跳跃 密度 ，mnu 是 预期 跳跃 规模 ，delta 
是 跳跃 规模 可 变性 )。 
RKEAG HE 
根据 市 场 数据 和 经 过 检验 的 模型 , 我 们 建立 了 包含 美式 DAX 30 看 跌 期 权 投资 组 
合 的 模型 ， 并 生成 重要 统计 量 (头寸 价值 、Delta 和 Vega), 
本 章 中 的 实际 用 例 说 明了 DX 库 的 灵活 性 和 能 力 ; 它 本 质 上 使 我 们 可 以 对 付 任何 衍生 
品 分 析 任 务 。 基 本 方法 和 架构 使 这 种 应 用 大 体 上 可 以 与 欧式 期 权 Black-Scholes-Merton 
分 析 公式 的 基准 用 例 相 媲美 。 一 旦 定义 了 估 值 对 象 ， 就 可 以 将 与 其 类 似 的 方式 用 于 某 个 
分 析 公 式 不 管 表面 下 隐藏 着 怎样 的 事实 ， 都 需要 大 量 应 用 数值 化 例 程 和 算法 。 
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21.6 ”延伸 阅读 


和 前 几 章 一 样 ， 如 下 图 书 是 本 章 介绍 主题 的 很 好 参考 ， 尤 其 是 期 权 定价 模型 的 检验 : 
e Hilpisch，Yves (2015). Derivatives Analytics with Python. Chichester, England: Wiley 


Finance. 


关于 衍生 品 投资 组 合 的 一 致 性 估 值 和 管理 ， 可 参见 第 20 章 末 的 资源 。 
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附录 人 





AN 


正如 大 部 分 科学 学 科 一 样 ， 日 期 和 时 间 在 和 




















DUU0D 


学 中 起 着 重要 的 作用 。 本 附录 介绍 Python 


本 附录 并 不 全 面 。 不 过 ， 它 可 以 作为 支持 日 期 和 


编程 中 这 一 主题 的 不 同方 面 。 当 然 ， 
时 间 信 息 建 模 的 Python 生态 系统 主要 领域 的 入门 介绍 。 





A.1 Python 


Python 标准 库 中 的 datetime 模块 实现 了 非常 





要 的 日 期 和 时 间 的 相关 任务 : 


In [1]: from pylab import mpl, plt 
plit.style.use('seaborn') 
mpl.rcParams['font.family'] = 'serif' 
smatplotlib inline 
In [2]: import datetime as dt 
In [3]: dt.datetime.now() © 
Out [3]: datetime.datetime (2018, 10, 19, 15, 17, 32, 164295) 
In [4]: to = dt.datetime.today() © 
to 
Out [4]: datetime.datetime (2018, 10, 19, 15, 17, 32, 177092) 
In [5]: type(to) 
Out [5]: datetime.datetime 
In [6]: dt.datetime.today().weekday() © 
Out [6]: 4 








@ 返回 准确 的 日 期 和 系统 时 间 。 








@ 返回 以 数字 表示 的 周 日 ，0 表示 星期 一 。 
HIR, datetime 对 象 可 以 自由 定义 : 


In [7]: d = dt.datetime(2020, 10, 31, 10, 5, 30, 500000) © 
d 
Out [7]: datetime.datetime (2020, 10, 31, 10, 5, 30, 500000) 


In [8]: str(d) @ 
Out [8]: "2020-10-31 10205730. 500000" 





In [9]: print (d) © 
2020-10-31 10:05:30.500000 


5 
© 


I : d.year @ 
Out [10]: 2020 


In [11]: d.month © 
QuE [11]: 10 


In [12]: d.day 9 
Out [12]: 31 





In [13]: d.hour @ 
Out [13]: 10 














O HENX datetime 对 象 。 





O FTE. 

© 打印 对 象 。 

O 对 象 的 year 属性 。 
O WRAY month 属性 。 
O 对 象 的 day 属性 。 

@ XZH hour 属性 。 
转换 和 拆 分 很 容易 实现 : 


In [14]: o = d.toordinal() © 
o 
Out [14]: 737729 


In [15]: dt.datetime.fromordinal (o) @ 
Out [15]: datetime.datetime (2020, 10, 31, 0, 0) 
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In [16]: t = dt.datetime.time(d) ® 
t 
Out [16]: datetime.time(10, 5, 30, 500000) 
In [17]: type(t) 
Out[17]: datetime.time 
In [18]: dd = dt.datetime.date(d) @ 
dd 
Out [18]: datetime.date(2020, 10, 31) 
In [19]: d.replace(second=0, microsecond=0) 
Out [19]: datetime.datetime (2020, 10, 
@ 转换 为 序数 。 
@ 从 序数 转换 。 
© 拆 分 time 部 分 。 
@ 拆 分 date 部 分 。 


© 将 所 选 值 设置 为 0。 





timedelta 是 男 一 类 对 象 ， 它 从 datetime 对 象 的 数学 运算 即 求 取 两 个 此 类 对 象 


的 差 值 ) 得 出 : 


In [20]: td = d - dt.datetime.now() 


td 


Out [20]: datetime.timedelta (days=742, 


In [21]: type(td) @ 
Out[21]: datetime.timedelta 


In [22]: td.days 
Out [22]: 742 


In [23]: td.seconds 
Out [23]: 67678 


In [24]: td.microseconds 
Out [24]: 169720 








In [25]: td.total_seconds() © 
Out [25]: 64176478.16972 


@ Fi datetime 对 象 的 差 值 。 








seconds=67678, 


microseconds=169720) 
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O 产生 一 个 timedelta WE, 
© 差 值 以 秒表 示 。 


将 datetime 对 象 转换 为 不 同 的 表示 以 及 从 其 他 对 象 (如 字符 串 对 象 ) 生成 datetime 
对 象 都 有 多 种 方式 。 详 情 参 见 datetime 模块 的 文档 。 下 面 是 几 个 例子 : 


In [26]: d.isoformat() © 
Out [26]: '!2020-10-31T10:05:30.500000 





In [27]: d.strftime('%A, %d. %B %Y %I1:%M%p') © 
Out [27]: 'Saturday, 31. October 2020 10:05AM' 


In [28]: dt.datetime.strptime('2017-03-31', '%Y-%m-%d') © 
Out [28]: datetime.datetime(2017, 3, 31, 0, 0) 


In [29]: dt.datetime.strptime('30-4-16', '%d-%m-%y') © 
Out [29]: datetime.datetime (2016, 4, 30, 0, 0) 








[In [30]: ds = str(d) 
Out [30]: '2020-10-31 10:05:30.500000' 


In [31]: dt.datetime.strptime(ds, '%Y-%m-%d %H:%M:%S.%f') © 
Out [31]: datetime.datetime(2020, 10, 31, 10, 5, 30, 500000) 


@ ISO 格式 字符 串 表 示 。 
@ 字符 串 表 示 的 模板 。 
© 根据 模板 从 字符 串 转换 的 datetime 对 象 。 


除了 now() Ail today () 函数 之 外 ， 还 有 utcnow () 函数 ， 该 函数 给 出 UTC ( 世界 调 
整 时 间 ， 过 去 称 作 格林 尼 治 标准 时 间 GMT ) 形式 的 日 期 和 时 间 的 准确 信息 。 这 一 时 间 
和 作者 所 在 时 区 ( CET， 中 欧 标准 时 间 ) 相差 1 个 或 2 个 小 时 : 


In [32]: dt.datetime.now() 
Out [32]: datetime.datetime (2018, 10, 19, 15, 17, 32, 438889) 











33]: dt.datetime.utcnow() © 
Out [33]: datetime.datetime (2018, 10, 19, 13, 17, 32, 448897) 


5 




















In [34]: dt.datetime.now() - dt.datetime.utcnow() @ 

















Out [34]: datetime.timedelta(seconds=7199, microseconds=999995) 
© 返回 当前 UTC 时 间 。 
@ 返回 当地 时 间 和 UTC 时 间 的 差 值 。 
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datetime 模块 的 男 一 个 类 是 tzinfo 类 ， 这 是 一 个 通用 时 区 类 ， 包 含 utcoffset (), 
dst () 和 ftzname () 方 法 。DST 是 夏令 时 (Daylight Saving Time ) 的 意思 。UTC 时 间 
的 定义 采用 如 下 形式 : 


In [35]: class UTC(dt.tzinfo): 
def utcoffset(self, d): 
return dt.timedelta(hours=0) © 
def dst(self, d): 
return dt.timedelta(hours=0) @ 
def tzname(self, d): 
return 'UTC' 























In [36]: u = dt.datetime.utcnow() 


Tm ST 
Out [37]: datetime.datetime (2018, 10, 19, 13, 17, 32, 474585) 


In [38]: u = u.replace(tzinfo=UTC()) @ 





In [39]: u 
Out [39]: datetime.datetime (2018, 10, 19, 13, 17, 32, 474585, tzinfo= 
<__main__.UTC 








object at 0x1l1c9a2320>) 





In [40]: class CEST(dt.tzinfo): 
def utcoffset (self, d): 
return dt.timedelta(hours=2) © 
def dst(self, d): 
return dt.timedelta(hours=1) © 
def tzname(self, d): 
return 'CEST' 








In [41]: c = u.astimezone(CEST()) © 





Out [41]: datetime.datetime (2018, 10, 19, 15, 17, 32, 474585, 


tzinfo=<__main__.CEST object at 0xllc9a2cc0>) 





In [42]: c - c.dst() © 
Out [4 datetime.datetime(2018, 10, 19, 14, 17, 32, 474585, 
tzinfo=<__main__.CEST object at 0xllc9a2cc0>) 


@ UTC 没有 时 移 。 
@ 通过 replace () 方 法 连接 dt .tzinfo WR, 
© CEST 的 常规 及 DST ( 夏令 时 ) 时 移 。 





N 
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@ 将 UTC 时 


区 转换 成 CEST 时 区 。 


O 给 出 转换 后 datetime 对 象 的 夏令 时 时 间 。 


Python 模块 pytz 可 以 实现 全 世界 非常 重要 的 时 




















In [43 
In [4 
Out [4 
n [45 
Out [45 
In [46 
Out [46 
@ 单一 国家 。 
@ 单一 时 区 。 








x 





import pytz 


pytz.country_names['US'] © 
'United States' 





pytz.country timezones['BE'] @ 
['Europe/Brussels'] 


pytz.common_timezones[-10:] © 
['Pacific/Wake', 
'Pacific/Wallis', 
'US/Alaska', 
'US/Arizona', 
US/Central', 
US/Eastern', 
'US/Hawaii', 
'US/Mountain', 
US/Pacific', 
'UTC'] 





© 常见 的 一 些 时 区 。 





有 了 pytz, i 








In [47 
In [48 
In [49 
Out [49 
In [50 
Out [50 
In [51 
Out [51 





常 就 没有 必要 上 自 定义 tzinfo MAT: 


u 


ll 


dt.datetime.utcnow () 


u = u.replace(tzinfo=pytz.utc) © 


u 
datetime.datetime (2018, 10, 19, 13, 17, 32, 611417, tzinfo=<UTC>) 


u.astimezone (pytz.timezone('CET')) @ 
datetime.datetime (2018, 10, 19, 15, 17, 32, 611417, tzinfo=<DstTzInfo 
'CET' CEST+2:00:00 DST>) 





u.astimezone (pytz.timezone('GMT')) @ 
datetime.datetime (2018, 10, 19, 13, 17, 32, 611417, tzinfo= 


<StaticTzInfo 'GMT'>) 
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In [52]: u.astimezone(pytz.timezone('US/Central')) @ 
datetime.datetime (2018, 10, 19, 8, 17, 32, 611417, tzinfo=<DstTzInfo 


Out [52]: 


‘US/Central' CDT-1 day, 19:00:00 DST>) 


O 通过 pytz 定义 tzinfo WR. 
O 将 datetime 对 象 转换 为 不 同时 区 。 


A.2 NumPy 
Numpy 也 提供 了 处 理 日 期 与 时 间 信息 的 功能 : 


In 


In 


Out 


In 
Out 


In 
Out 


In 
Out 


In 


Out 


In 
Out 


@ 从 字符 是 





53 


54 


54 


55 
55 


56 
56 


57 
57 


58 


58 


59 
59 








import numpy as np 


: nd = np.datetime64('2020-10-31') © 


nd 


: numpy.datetimeé4 ('2020-10-31') 


: np.datetime_as_string(nd) © 


"2020-10-31! 


: np.datetime_data(nd) @ 


('D', 1) 


ee | 
: datetime.datetime (2020, 10, 31, 10, 5, 30, 500000) 


: nd = np.datetime64(d) © 


nd 


: numpy.datetimeé4 ('2020-10-31T10:05:30.500000') 


: nd.astype(dt.datetime) 9 
: datetime.datetime (2020, 10, 31, 10, 5, 30, 500000) 


对 象 和 字符 串 表示 中 构造 。 





@ 关于 数据 本 身 的 元 信息 (类 型 和 大 小 )。 
© 从 datetime 对 象 中 构造 。 
O 转换 为 datetime HR, 


构造 此 类 对 象 的 另 一 种 方法 是 提供 一 个 字符 串 对 象 ， 例 如 ， 包 会 年 、 月 及 频率 信息 


的 字符 串 。 注 意 , 对 象 值 默认 为 该 月 的 第 一 天 。 也 可 以 根据 列表 对 象 构造 ndarray 


对 象 : 
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In [60]: nd = np.datetime64('2020-10', 'D') 
Out [60]: numpy.datetime6é4 ('2020-10-01') 


In [61]: np.datetime64('2020-10') == np.datetimeé4 ('2020-10-01"') 
Out [61]: True 


In [62]: np.array(['2020-06-10', '2020-07-10', '2020-08-10'], dtype= 
"datetime64') 

Out[62]: array(['2020-06-10', '2020-07-10', '2020-08-10'], dtype= 
"datetime64[D]") 


In [63]: np.array(['2020-06-10T12:00:00', '2020-07-10T12:00:00', 

'2020-08-10T12:00:00'], dtype='datetime64[s]') 

Out [63]: array(['2020-06-10T12:00:00', '2020-07-10T12:00:00', 
'2020-08-10T12:00:00'], dtype='datetime64[s]') 


我 们 也 可 以 使 用 np .arange () 函数 生成 一 个 日 期 范围 。 很 容易 使 用 不 同 的 频率 〈 例 
如 ， 天 、 月 或 者 周 ): 
In [64]: np.arange('2020-01-01', '2020-01-04', dtype='datetime64') © 


Out [64]: array(['2020-01-01', '2020-01-02', '2020-01-03'], dtype= 
"datetime64[D]') 




















a 





In [65]: np.arange('2020-01-01', '2020-10-01', dtype='datetime64[M]') @ 

Out [65]: array(['2020-01', '2020-02', '2020-03', '2020-04', '2020-05', 
'2020-06', '2020-07', '2020-08', '2020-09'], 
dtype='datetimeé4 [M] ') 


In [66]: np.arange('2020-01-01', '2020-10-01', dtype='datetime64[W]')[:10] © 

Out [66]: array(['2019-12-26', '2020-01-02', '2020-01-09', '2020-01-16', 
'2020-01-23', '2020-01-30', '2020-02-06', '2020-02-13', 
"2020-02-20', '2020-02-27'], dtype='datetime64 [WwW] ') 


In [67]: dtl = np.arange('2020-01-01T00:00:00', '2020-01-02T00:00:00', 
dtype='datetime64[h]') © 
dt1[:10] 
Out [67]: array(['2020-01-01T00', '2020-01-01T01', '2020-01-01T02', 
'2020-01-01T03', '2020-01-01T04', '2020-01-01T05', 
'2020-01-01T06', 











'2020-01-01T07', '2020-01-01T08', '2020-01-01T09'], 
dtype='datetimeé4 [h] ') 


In [68]: np.arange('2020-01-01T00:00:00', '2020-01-02T00:00:00', 
dtype='datetime64[s]')[:10] © 
Out [68]: array (['2020-01-01T00:00:00', '2020-01-01T00:00:01', 
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'2020-01-01T00:00:02', '2020-01-01T00:00:03', 
'2020-01-01T00:00:04', '2020-01-01T00:00:05', 
'2020-01-01T00:00:06', '2020-01-01T00:00:07', 
'2020-01-01T00:00:08', '2020-01-01T00:00:09'], 
dtype='datetimeé4[s]') 
In [69]: np.arange('2020-01-01T00:00:00', '2020-01-02T00:00:00', 
dtype='datetime64[ms]')[:10] 9 
Out [69]: array (['2020-01-01T00:00:00.000', '2020-01-01T00:00:00. 
'2020-01-01T00:00:00.002', '2020-01-01T00:00:00. 
'2020-01-01T00:00:00.004', '2020-01-01T00:00:00. 
'2020-01-01T00:00:00.006', '2020-01-01T00:00:00. 
'2020-01-01T00:00:00.008', '2020-01-01T00:00:00. 
dtype='datetime6é4 [ms] ') 
@ 每 日 频率 。 
@ 每 月 频率 。 
© 每 周 频率 。 
@ 每 小 时 频率 。 
@ 每 秒 频率 。 
@ 每 毫秒 频率 。 























001', 
003', 
0051; 
007', 
009'], 


绘制 日 期 -时 间 和 时 间 序 列 数 据 的 图 表 有 时 候 很 困难 。matplotlib 对 标准 的 datetime 


对 象 有 很 好 的 支持 。 将 datet ime64 信息 转换 为 datetime 信 ， 
正如 下 面 的 例子 ， 其 结果 如 








图 A-1 所 示 : 








自 

















息 通 常 可 以 取得 成 功 ， 








oo 
NS a 
9 





图 A-1 


图 上 的 x 轴 的 datetime 刻度 自动 格式 化 
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In [70]: import matplotlib.pyplot as plt 
smatplotlib inline 


In [71]: np.random.seed (3000) 
rnd = np.random.standard_normal (len (dt1)) .cumsum() ** 2 











In [72]: fig = plt.figure(figsize=(10, 6)) 
plt.plot(dtl.astype(dt.datetime), rnd) © 
fig.autofmt_xdate(); @ 


@ 使 用 datetime 信息 作为 x 值 。 
© 自动 格式 化 x 轴 上 的 datetime 刻度 。 


A.3 pandas 


pandas 库 在 设计 时 至 少 在 某 种 程度 上 考虑 了 时 间 序 列 数据 。 因 此 ， 该 库 提供 了 可 以 高 
效 处 理 日 期 -时 间 信息 的 类 ， 如 用 于 时 间 索 引 的 DatetimeIndex 类 。 


pandas 引入 了 Timestamp 对 象 ， 它 会 进一步 代替 datetime 和 datetime64 WE: 

















In [73]: import pandas as pd 


In [74]: ts = pd.Timestamp('2020-06-30') © 
ts 
Out[74]: Timestamp ('2020-06-30 00:00:00') 


In [75]: d = ts.to_pydatetime() @ 
d 
Out[75]: datetime.datetime (2020, 6, 30, 0, 0) 


In [76]: pd.Timestamp(d) © 
Out [76]: Timestamp ('2020-06-30 00:00:00') 





In [77]: pd.Timestamp(nd) @ 
Out [77]: Timestamp ('2020-10-01 00:00:00') 


KALA PMR Timestamp 对 象 。 

X Ä Timestamp 对 象 的 datetime 对 象 。 
KA datetime 对 象 的 Timestamp WK, 

@ 来 日 datetime64 对 象 的 Timestamp WA, 


另 一 个 重要 的 类 是 Datet imeIndex 类 , 它 是 Timestamp 对 象 和 一 些 强大 的 附加 方法 
WEA. DatetimeIndex 对 象 可 以 用 pd.date_range() 函数 实例 化 , 该 函数 在 构造 














© © © 
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时 间 索 引 方面 相当 灵活 而 强大 (关于 该 函数 的 更 多 细节 


In [78]: 


Out [78]: 


in [79]2 
Out [79]: 


In [80]: 


Out [80]: 


In [81]: 
Out [81]: 


In [82]: 
Out [82]: 


dti = pd.date_range('2020/01/01', 


dti 


DatetimeIndex (['2020-01-31', 
*2020-05-31', 
*2020-09-30', 
dtype='datetimeé4[ns]', 


dti[6] 


参 


freq='M', 


"2020-02-29", 
'2020-06-30', 
'2020-10-31', 


Timestamp ('2020-07-31 00:00:00', 


pdi = dti.to_pydatetime () 


pdi 

array ([date 
date 
date 
date 
date 
date 
date 
date 
date 
date 
date 
date 


time 
time 
time 
time 
time 
time 
time 
time 
time 
time 


time 





time 


.datetime 
.datetime 
.datetime 
.datetime 
.datetime 
.datetime 
.datetime 
.datetime 
.datetime 
.datetime 


.datetime 








.datetime 


pd.DatetimeIndex (pdi) 
DatetimeIndex (['2020-01-31', 
*2020-05-31', 
*2020-09-30', 
dtype='datetimeé4[ns]', 


pd.DatetimeIndex (dt1) 








© 


(4 
DatetimeIndex (['2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 
"2020-01 


(2) 


2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 
2020, 


10 
11 
12 


'2020-11-30', 
freq='M') 





periods=12) 


参见 第 8 TE )。 类 型 转换 是 可 能 的 : 


o 


'2020-03-31', '2020-04-30', 
'2020-07-31', 12020=08=31"; 


freq='M') 


or 
~ 


or 
~ 





QW wW w Nm WwW 
~ 


w 
oO ee 
~ 


, 31 


pou 


"2020-02-29", 
'2020-06-30', 
*2020-10-31', 





l: -00;; 
l 02: 
L 04: 
l-06: 
L 08: 
L203 
L. 223 
L: 14: 
[63 
L 18: 
L 2.0% 


00 
00 
00: 
00: 
00: 
00: 
00: 
00 
00: 
00: 
00: 


:00', 
40:0", 


00', 
00', 
00', 
00', 
00', 


:00', 


00', 
00', 
00', 


了 0, 
, 30, 0, 0 
, 0, 0 


'2020-11-30", 
freq=None) 


~ Ss NON 


~ 


~ 


~ 


co} 
~ 
DO. O O O O Ome) 
口 一 一 一 一 一 一 一 一 一 
~ 


一 一 一 、 
ua ON 


'2020-12-31"], 


, Atype=object) 


"2020-03-31", '2020-04-30', 
'2020-07-31', '2020-08-31', 


"2020-01-01 O1: 
"2020-01-01 03: 
"2020-01-01 O05: 
"2020-01-01 O7: 
"2020-01-01 09: 
12020 502:-— 040 pI; 
"2020-01-01 13: 
"2020-01-01 15: 
"2020-01-01 17: 
"2020-01-01 19: 
"2020-01-01 21: 








00 
00 


00 


'2020-12-31"], 


£010." 5. 
200"; 
00: 
00: 
00: 
00: 
00: 


00', 
00', 
00', 
00', 
00', 


:00', 
00: 
00: 
00: 


00', 
00', 
00', 
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"2020-01-01 22:00:00', '2020-01-01 23:00:00'], 
dtype='datetimeé6é4[ns]', freq=None) 


O DatetimeIndex 对 象 (频率 为 每 月 一 次 , FE 12 期 )。 

@ DatetimeIndex 对 象 转换 为 包含 datetime 对 象 的 ndarray 对 象 。 

© HHS datetime 对 象 的 ndarray 对 象 转换 而 来 的 DatetimeIndex WE, 

O 由 包含 datetime64 对 象 的 ndarray 对 象 转换 而 来 的 DatetimeIndex 对 象 。 
pandas 可 以 绘制 日 期 -时 间 信息 的 对 应 图 表 (参见 图 A-2 和 第 8 章 ): 


In [83]: rnd 


np.random.standard normal (len(dti)).cumsum() ** 2 
In [84]: df = pd.DataFrame (rnd, columns=['data'], index=dti) 


In [85]: df.plot (figsize=(10, 6)); 





P — data 
30 
25 
20 
15 
10 
5 
0 
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2020 








图 A-2 pandas AX, x HAY Timestamp 刻度 自动 格式 化 





pandas 还 可 以 很 好 地 与 pytz 模块 集成 来 管理 时 区 : 


In [86]: pd.date_range('2020/01/01', freq='M', periods=12, 
tz=pytz.timezone('CET') ) 
Out [86]: DatetimeIndex(['2020-01-31 00:00:00+01:00', '2020-02-29 
00:00:00+01:00', 
"2020-03-31 00:00:00+02:00', '2020-04-30 00:00:00+02:00', 
"2020-05-31 00:00:00+02:00', '2020-06-30 00:00:00+02:00', 
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In [87]: 


"2020-07-31 00:00:00+02:00', 
"2020-09-30 00:00:00+02:00', 
"2020-11-30 00:00:00+01:00', 


dti = 


tz='US/Eastern') 


Out [87]: 


In [88]: 
Out [88]: 


dti 


pd.date_range('2020/01/01', 


'2020-08-31 00:00:00+02 
'2020-10-31 00:00:00+01 
"2020-12-31 00:00:00+01 
dtype='datetimeé4[ns, CET]', 





freq='M', 


DatetimeIndex (['2020-01-31 00:00:00-05:00', 
00:00:00-05:00', 


"2020-03-31 
"2020-05-31 
"2020-07-31 
"2020-09-30 
"2020-11-30 


00: 
00: 
00: 
00: 
00: 


00: 
00: 
00: 
00: 
00: 


00-04: 


00-04 


dti.tz convert ('GMT') 
DatetimeIndex (['2020-01-31 05:00:00+00:00', 
05:00:00+00:00', 


"2020-03-31 
"2020-05-31 
"2020-07-31. 
"2020-09-30 
'2020-11-30 


04: 
04: 
04: 
04: 
O53 


00: 
00: 
00: 
00: 
00: 


00+00 


00', 


:00', 
00-04: 
00-04: 
00-05: 
dtype='datetimeé4[ns, 


00', 
00', 
00', 


:00', 
00+00: 
00+00: 
00+00: 
00+00: 
dtype='datetimeé4[ns, 


00', 
00', 
00', 
00', 


"2020-04-30 
"2020-06-30 
"2020-08-31 
"2020-10-31 
"2020-12-31 


"2020-04-30 
"2020-06-30 
"2020-08-31 
"2020-10-31 
"2020-12-31 


00: 
00: 
00: 
00: 
00: 
US/Eastern]', 


04: 
04: 
04: 
04: 
05: 
GMT]', 


freq='M') 


"2020-02-29 


00: 
00: 
00: 
00: 
00: 


00-04: 
00-04 
00-04: 
00-04: 
00-05: 


"2020-02-29 


00: 
00: 
00: 
00: 
00: 


00+00 
00+00: 
00+00: 
00+00: 
00+00: 


freq='M') 


:00', 
:00', 
:00'], 


00', 
:00', 
00', 
00', 
00'], 
freq='M') 


:00', 
00', 
00', 
00', 
00'], 


periods=12, 
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附录 B 


BSM J U U 





B.1 类 定义 


下 面 是 Black-Scholes-Merton ( 1973 ) 模型 ( 参见 第 3 章 , 特别 是 例 3-1 ) 下 的 欧洲 看 涨 
期 权 类 定义 。 这 个 基于 类 的 实现 可 以 代替 12.5 节 中 介绍 的 基于 函数 实现 : 





Valuation of European call options in Black-Scholes-Merton model 
incl. vega function and implied volatility estimation 
—- class-based implementation 


Python for Finance, 2nd ed. 
(c) Dr. Yves J. Hilpisch 


SF Fe Fe Fe FH Fe 间 


from math import log, sqrt, exp 
from scipy import stats 


class bsm_call_option(object): 
''' Class for European call options in BSM model. 


Attributes 
S0: float 
initial stock/index level 
K: float 
strike price 
T: float 
maturity (in year fractions) 
r: float 





641 


constant risk-free short rate 
sigma: float 

volatility factor in diffusion term 
Methods 


value: float 
returns the present value of call option 
vega: float 
returns the vega of call option 
imp_vol: float 
returns the implied volatility given option quote 


def _init__(self, S0, K, T, r, sigma): 
self.S0 = float (S0) 
self.K =K 
self.T = T 
self.r = r 


self.sigma = sigma 





def value (self 
''' Returns option value. 
rrr 
dl = ((log(self.S0 / self.K) + 
(self.r + 0.5 * self.sigma ** 2) * self.T) / 
(self.sigma * sqrt (self.T))) 
d2 = ((log(self.S0 / self.K) + 
(self.r - 0.5 * self.sigma ** 2) * self.T) / 
(self.sigma * sqrt (self.T))) 
value = (self.S0 * stats.norm.cdf(d1l, 0.0, 1.0) - 
self.K * exp(-self.r * self.T) * stats.norm.cdf (d2, 











return value 


def vega (self): 
''' Returns vega of option. 


dl = ((log(self.S0 / self.K) + 
(self.r + 0.5 * self.sigma ** 2) * self.T) / 
(self.sigma * sqrt (self.T))) 
vega = self.SO * stats.norm.pdf (dl, 0.0, 1.0) * sqrt(self.T) 


return vega 


def imp_vol (self, C0, sigma_est=0.2, it=100): 
''' Returns implied volatility given option price. 
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one 


option = bsm_call_option(self.S0O, self.K, self.T, self.r, sigma_est) 
for i in range(it): 
option.sigma -= (option.value() - C0) / option.vega () 


return option.sigma 


B.2 类 的 使 用 


这 个 类 可 以 用 于 如 下 的 交互 式 Jupyter Notebook 会 话 : 





rm [EL 
In [2 
Out [2 
In [3 
Out [3 
In 

Out [4 
开交 
Out [5 





from bsm_option_class import * 


: o = bsm_call_option(100., 105., 1.0, 0.05, 0.2) 


type (o) 


: bsm_option_class.bsm_call_option 


: value = o.value() 


value 
8.021352235143176 


: O.vega() 


39.67052380842653 


: o.imp_vol (CO=value) 


0.2 


这 个 期 权 类 也 可 用 于 可 视 化 ， 例 如 ， 不 同行 权 价 和 到 期 日 的 期 权 价值 及 Vega 值 ， 这 是 
拥有 期 权 类 的 主要 好 处 之 一 。 下 面 的 Python 代码 生成 不 同 到 期 日 - 行 权 价 组 合 的 期 权 统 


计量 ; 


工 .[6'] 3 


import numpy as np 

maturities = np.linspace(0.05, 2.0, 20) 
strikes = np.linspace(80, 120, 20) 

T, K = np.meshgrid(strikes, maturities) 
C = np.zeros_like(K) 

V = np.zeros_like (C) 

for t in enumerate (maturities): 


for k in enumerate (strikes): 


o.T = t[1] 
o.K = k[1] 
C[t[0], k[0]] = o.value() 
V[t[0], k[0]] = o.vega() 

















首先 ， 我 们 来 观察 期 权 的 价值 。 图 B-1 展示 了 欧洲 看 涨 期 权 的 价值 曲面 : 





B.2 类 的 使 用 643 





In [7]: from pylab import cm, mpl, plt 
from mpl_toolkits.mplot3d import Axes3D 
mpl.rcParams['font.family'] = 'serif' 


Smatplotlib inline 


plt.figure(figsize=(12, 7)) 
fig.gca (projection='3d') 


surf = ax.plot_surface(T, K, C, 
linewidth=0.5, 


In [8]: fig = 


ax = 
rstride=1, cstride=1, 


cmap=cm.coolwarm, antialiased=True) 


ax.set_xlabel('strike') 
x.set_ylabel ('maturity') 
ax.set_zlabel('European call option value") 


fig.colorbar(surf, shrink=0.5, aspect=5); 
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图 B-1 欧式 看 涨 期 权 价值 曲面 


其 次 ， 观 察 Vega 值 ， 图 B-2 展示 了 欧洲 看 涨 期 权 的 Vega 曲面 : 


In [9]: fig = plt.figure(figsize=(12, 7)) 


fig.gca (projection='3d') 


ax.plot_surface(T, K, V, 
linewidth=0.5, 


ax = 
rstride=1, cstride=1, 


surf = 
antialiased=True) 


cmap=cm.coolwarm, 
ax.set_xlabel('strike') 
ax.set_ylabel ('maturity') 
ax.set_zlabel('Vega of European call option") 


fig.colorbar(surf, shrink=0.5, aspect=5); 
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欧洲 看 涨 期 权 的 Vega 曲面 
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Yves J. Hilpisch 博士 是 Python Quants 集团 的 创始 人 和 管理 合伙 人 ， 该 集团 致力 于 应 用 
开源 技术 来 解决 金融 数据 科学 、 人 工 智能 、 算 法 交易 和 计算 金融 学 等 问题 。 他 还 是 AI 
Machine 公司 的 CEO ， 这 个 公司 的 专业 领域 是 通过 专属 策略 执行 平台 来 利用 人 工 智 能 
的 威力 。 他 还 是 另外 两 本 图 书 的 作者 : 


e = Derivatives Analytics with Python (Wiley, 2015) 


























e Listed Volatility and Variance Derivatives (Wiley, 2017) 

Yves 在 CQF 项 目 讲授 计算 金融 学 课程 , 在 EPAT 项 目 讲授 算法 交易 。 他 还 是 Python 算 
法 交易 大 学 认证 的 首 个 在 线 培训 项 目的 主管 。 

Yves 编写 了 DX Analytics 金融 分 析 库 ， 并 在 伦敦 、 柏 林 、 巴 黎 和 纽约 等 地 组 织 了 关于 
Python 计量 金融 学 相关 的 聚会 、 会 议和 训练 营 。 他 曾 在 美国 、 欧 洲 和 亚洲 的 技术 会 议 
上 担任 过 主讲 人 。 
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本 书 封面 上 的 动物 是 伊 


国 中 稍微 常见 一 些 。 





中 


UU 

















斯 帕 尼 奥 拉 长 吻 狂 ， 这 是 一 种 生活 于 加 勒 比 海 伊 
(包含 海地 和 多 米 尼 加 共和 国 ) 的 濒危 哺乳 动物 ， 在 海地 特别 稀少 ， 








长 吻 独 以 节肢 动物 、 蠕 虫 、 蜗 牛 和 疏 虫 为 食 ， 偶 尔 也 食用 根 、 果 实 和 叶 
重量 为 1 一 2 磅 (1 磅 = 0.4536 千克 )， 头 和 身体 长 1 英尺 ， 外 加 10 BER (1 英尺 =12 


英寸 =0.3048 K) 长 的 尾巴 ( 








而 在 














斯 由 尼 奥 拉 岛 
多 米 尼 加 共和 


子 。 长 吻 独 的 


咯 有 误差 )。 这 种 古老 的 哺乳 动物 看 上 去 像 大 的 地 鼠 ， 


多 毛 ， 上 面 为 红 褐色 ， 下 面 较 浅 一 些 ， 而 尾部 、 腿 和 突出 的 鼻子 上 则 毛发 较 少 。 
长 吻 狂 习性 相当 安静 ， 往 往 游离 于 别人 的 视线 之 外 。 当 它 出 门 时 ， 行 动 很 笨拙 ， 奔 跑 


时 稼 党 绊 倒 。 不 过 ， 作 为 一 种 夜间 型 物种 ， 它 有 敏锐 的 听觉 、 嗅 党 和 触 
的 独特 气味 像 “ 小 山羊 ” 


o 




















CPIS BA REER, PETRER KARE 








觉 , 据说 , 它 

















少数 有 毒 的 哺 

















乳 动 物 之 一 。 有 时 候 ， 在 相互 争斗 时 会 释放 毒气 ， 对 长 吻 独 本身 也 可 能 致命 。 在 最 初 
的 冲突 之 后 ， 它 们 往往 确立 统治 关系 ， 并 在 同一 块 区 域 生活 。 家 族 可 能 长 时 间 居 住 在 











一 起 ， 它 们 只 在 洗澡 时 饮水 。 





O'Reilly 图 书 封面 上 的 许多 动物 都 处 于 濒危 状态 ; 它们 对 世界 很 重要 。 要 
它们 ， 可 以 访问 O'Reilly 官网 。 





了 解 如 何 帮助 
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Python 人 金融 大 数据 分 析 


Python 已 成 为 数据 驱动 、Al、 金 融 优 先 选择 的 编程 语言 。 现 在 ,一 些 大 
型 的 投资 银行 和 对 冲 基金 均 使 用 Python 及 其 相关 技术 来 构建 核心 交易 与 
风险 管理 系统 。 在 本 书 中 ， 作 者 向 开发 人 员 和 量化 分 析 人 员 介 绍 了 使 用 
Python 程 序 库 与 工具 ， 完 成 金融 数据 科学 、 算 法 交易 和 计算 金融 任务 的 
方法 。 



































本 书 的 多 数 代码 已 针对 Python 3 做 了 更 新 ， 为 读者 提供 了 书 中 使 用 的 几 
乎 所 有 示例 的 可 执行 、 交 互 版 本 。 本 书包 括 以 下 5 个 方面 的 内 容 ， 你 可 
以 从 中 了 解 Python 及 其 相关 技术 是 如 何 为 金融 公司 及 从 业者 提供 技术 框 


架 的 。 




















E Python 和 金融: Python 交互 式 金融 分 析 与 程序 开发 入 门 。 


E 基础 知识 : 学 习 Python 数 据 类 型 与 结构 、NumPy、pandas 及 其 
DataFrame 类 、 面 向 对 象 编程 。 


n 金融 数据 科学 ， 探索 用 于 金融 时 间 序 列 数据 、I/0 操 作 、 推 断 统计 
学 和 机 器 学 习 的 Python 技 术 与 程序 库 。 


E 算法 交易 : 使 用 Python 来 验证 和 部 署 自动 算法 交易 策略 。 


E 衍生 品 分 析 : 开发 灵活 且 强大 的 Python 期 权 、 衍 生 品 定价 和 风险 
管理 程序 库 。 








Yves Hilpisch 博 士 是 Python Quants 集 团 的 创始 人 和 管理 合伙 人 。 该 集团 致 
力 于 应 用 开源 技术 来 解决 金融 数据 科学 、 人 工 智能 、 算 法 交易 和 计算 金融 
学 等 问题 。 他 还 是 Al Machine 公 司 的 创始 人 和 CEO， 该 公司 的 主 营业 务 是 通 
过 专属 策略 执行 平台 来 发 挥 人 工 智能 的 威力 。 他 还 是 Python 算法 交易 大 学 
认证 的 在 线 培 训 项 目的 主管 。 









































“Python 因 其 易于 理解 的 语法 、 


与 C/C++ 的 轻松 集成 和 多 种 数值 

计算 工具 ， 成 为 了 金融 分 析 的 

极 佳 选择 。 它 正在 快速 替代 主 

流 金融 机 构 使 用 的 语言 与 工具 ， 
并 成 为 事实 上 的 标准 。” 

一 一 Kirat Singh 

Beacon Platform 公司 

合 创始 人 兼 CEO 
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